您现在的位置是：首页 > 后端

当前栏目

Python爬虫伪装

Python 爬虫伪装

2023-09-11 14:22:29 时间

1. 概述

在爬取某些网页过程中网站服务器限制了网络爬虫的访问，因而在获取其页面内容的时候会报错。这时就需要对爬虫的访问进行伪装模仿浏览器访问，这样便可以正常访问。在本文中将使用一个简单的例子来做说明（注：这里使用的网址仅仅作为测试使用不含任何恶意攻击和商业使用）

2. 实现

# -*- coding=utf-8 -*-

import urllib2 as url_lib2    # 网络库
import urllib as url_lib

url_str = 'http://www.qiushibaike.com/text/'
headers = {"User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.89 Safari/537.36"}
try:
    request = url_lib2.Request(url_str, headers=headers)
    page = url_lib2.urlopen(request).read()
    print page
except url_lib2.URLError, ex:
    print(ex.reason)
    print(ex.errno)

3. 结果

没有使用伪装，报错

使用了伪装可正常获取页面内容

猜你喜欢

【工具】JAVA 在单元读取文件并比较
【云栖大会】阿里云首席架构师唐洪：飞天，互联网规模的操作系统
清理DBA_DATAPUMP_JOBS中的孤立数据泵作业
D3DXVec2Transform 函数
【python 游戏】闲的无聊？那就和博主一起来滑雪吧~
windows下JDK安装
BB
Maven deploy报错：Failed to deploy artifacts: Could not transfer artifact from/to snapshots 401 Unauthorized
基于麻雀搜索算法优化的Elman神经网络数据预测 - 附代码
大数据Hadoop之——数据分析引擎Apache Pig
利用Fragment实现Tab页
Atitit 基于meta的orm，提升加速数据库相关应用的开发
数据中台选型前必读（七）：解读数据服务的四大关键技术
力扣：前缀和、差分题目
从开发工程师转行软件测试，成都校区小哥哥收获双休12k，不加班！

相关主题

python 列表操作
Python爬虫笔记
Python 爬虫
python--爬虫
h5 Python_python做h5网站
[python爬虫] 百度贴吧

zl程序教程

当前栏目

Python爬虫伪装

1. 概述

2. 实现

3. 结果

相关文章