zl程序教程

您现在的位置是:首页 >  后端

当前栏目

Python爬虫伪装

Python爬虫 伪装
2023-09-11 14:22:29 时间

1. 概述

在爬取某些网页过程中网站服务器限制了网络爬虫的访问,因而在获取其页面内容的时候会报错。这时就需要对爬虫的访问进行伪装模仿浏览器访问,这样便可以正常访问。在本文中将使用一个简单的例子来做说明(注:这里使用的网址仅仅作为测试使用不含任何恶意攻击和商业使用)

2. 实现

# -*- coding=utf-8 -*-

import urllib2 as url_lib2    # 网络库
import urllib as url_lib

url_str = 'http://www.qiushibaike.com/text/'
headers = {"User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.89 Safari/537.36"}
try:
    request = url_lib2.Request(url_str, headers=headers)
    page = url_lib2.urlopen(request).read()
    print page
except url_lib2.URLError, ex:
    print(ex.reason)
    print(ex.errno)

3. 结果

没有使用伪装,报错

使用了伪装可正常获取页面内容