爬虫日记(24):Scrapy 中设置随机 User-Agent
2023-09-14 09:10:04 时间
在开发爬虫过程中,经常会发现反爬措施非常重要,其中设置随机 User-Agent 就是一项重要的反爬措施,Scrapy 中设置随机 UA 的方式有很多种,有的复杂有的简单,本文就对这些方法进行学习。最近使用 Scrapy 爬一个网站,遇到了网站反爬的情况,于是开始搜索一些反爬措施,了解到设置随机 UA 来伪装请求头是一种常用的方式,这能够做到一定程度上避免网站直接识别出你是一个爬虫从而封掉你。设置随机 UA 的方法有挺多种,有的需要好多行代码,有的却只需要一行代码就搞定了。
user agent是指用户代理,简称 UA。
作用:使服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。网站常常通过判断 UA 来给不同的操作系统、不同的浏览器发送不同的页面,因此可能造成某些页面无法在某个浏览器中正常显示,但也可以通过改变UA绕过检测。
如果只想设置一个固定的UA,那么可以直接在settings.py文件定义就可以了。在这一步之前,我们先来查看一下,scrapy缺省工程里使用的UA是什么,那么又怎么样来查看这个UA的值呢?
带着这个问题,我们回到前面的一个例子,就是那个抓取名言的例子(
相关文章
- [Python 爬虫]煎蛋网 OOXX 妹子图爬虫(1)——解密图片地址
- 双11当晚写的天猫爬虫,爬虫神器 scrapy 大法好!!!
- Python爬虫之scrapy框架
- Python 爬虫 NO.2 HTTP 和 HTTPS
- 基于Python编程实现简单网络爬虫实现
- Scrapy 爬虫完整案例—从小白到大神(银行网点信息为例)
- scrapy爬虫完整的代码实例[通俗易懂]
- 网络爬虫——scrapy案例「建议收藏」
- 网络爬虫——scrapy入门案例
- Python: “淘宝商品比价定向爬虫”实例
- Python 协程 asyncio 极简入门与爬虫实战
- 快速爬虫2020.9.27
- Selenium安装以及案例演示【Java爬虫】
- Scrapy爬虫入门
- 强大的爬虫框架 Scrapy
- Python 爬虫进阶必备 | 某新闻网正文图片 data-src 解密逻辑分析
- Scrapy-Splash:学完秒变爬虫大佬
- Python爬虫之scrapy框架学习
- scrapy 管理部署的爬虫项目的python类详解程序员
- Linux下网络爬虫技术应用实例分析(linux 网络爬虫)
- 使用BF4爬虫将数据存入MySQL(bf4爬虫存入mysql)
- 利用redis缓存爬取的数据(爬虫数据用redis存储)
- 多线程爬虫批量下载pcgame图片url保存为xml的实现代码
- 零基础写python爬虫之神器正则表达式
- 零基础写python爬虫之爬虫框架Scrapy安装配置