Python爬虫伪装
2023-09-11 14:22:29 时间
1. 概述
在爬取某些网页过程中网站服务器限制了网络爬虫的访问,因而在获取其页面内容的时候会报错。这时就需要对爬虫的访问进行伪装模仿浏览器访问,这样便可以正常访问。在本文中将使用一个简单的例子来做说明(注:这里使用的网址仅仅作为测试使用不含任何恶意攻击和商业使用)
2. 实现
# -*- coding=utf-8 -*-
import urllib2 as url_lib2 # 网络库
import urllib as url_lib
url_str = 'http://www.qiushibaike.com/text/'
headers = {"User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.89 Safari/537.36"}
try:
request = url_lib2.Request(url_str, headers=headers)
page = url_lib2.urlopen(request).read()
print page
except url_lib2.URLError, ex:
print(ex.reason)
print(ex.errno)
3. 结果
没有使用伪装,报错
使用了伪装可正常获取页面内容
相关文章
- [python爬虫] Selenium定向爬取PubMed生物医学摘要信息
- Python 修改pip源---windows / Linux
- 第三百四十六节,Python分布式爬虫打造搜索引擎Scrapy精讲—Requests请求和Response响应介绍
- 使用Python的PIL模块来进行图片对比
- Python导出DBF文件到Excel的方法
- python apscheduler的使用研究
- python对具有宏excel的操作
- [Python] Normalize the data with Pandas
- Open3D 点云投影到球面 (python详细过程版)
- Python: 爬虫入门-python爬虫入门教程(非常详细)
- Python:利用python语言实现18位身份证号码和15位身份证号码相互转换
- 零基础学Python-爬虫-2、scrapy框架(测试案例篇·技术点在后面文章内讲解)【测试将一篇小说的所有访问路径与标题存储到一个文件下】
- 已解决2.Set PROTOCOL_BUFFERS_PYTHON_IMPLEMENTATION=python (but this will use pure-Python parsing and wi
- 已解决2. Set PROTOCOL_BUPFERS_PYTHON_iMPLEMENTATION=python (but this will use pure-Python parsing and w
- 已解决(Python安装报错)Visit python.org to download an earlier version of Python.
- Python零基础—网络爬虫入门,附学习路线+笔记+视频教程
- 【Python成长之路】python 基础篇 -- global/nonlocal关键字使用
- 真香,Python “手绘风格”数据可视化方法汇总
- Python爬虫:常用的user_agent请求头
- Python编程:json序列化python对象
- Python爬虫:利用urlparse获取“干净”的url
- Python爬虫:PyExecJS在python中运行javascript代码
- Python爬虫:Scrapy的Crawler对象及扩展Extensions和信号Signals
- cocos2d-x使用python脚本创建项目的简单方法
- Python pyppeteer通过cookie获取数据(cookie爬虫)
- Python: 爬虫入门-python爬虫入门教程(非常详细)
- 打开我的收藏夹 -- Python爬虫篇
- 爬虫python request 官网教程
- Python:4-2月份格式转换程序