您现在的位置是：首页 > Python

当前栏目

Scrapy爬虫遇到的问题

2023-04-18 14:49:06 时间

今天做python爬虫时，之前可以爬取的网站网址显示：

爬取内容为空。

Scrapy爬虫遇到的问题

依次查找问题：

（1）INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)

报错提示Scrapy爬虫没有任何数据返回，需要修改settings.py设置文件中的ROBOTST_OBEY，将其默认值True改为False。

（2）[scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (302)

检查代码是，已经使用了 User-Agent，并且源连接直接在浏览器打开并不跳转，使用requests测试，发现并没有被重定向。搜索很久无果，然后开始检查 [scrapy.downloadermiddlewares.redirect] DEBUG，检查完并没有配置与这个相关的（DEFAULT_REQUEST_HEADERS）。

（3）[scrapy.core.engine] DEBUG: Crawled (403)

我将我要爬取的网址直接在浏览器输入，发现无法直接打开，页面显示如下：

Scrapy爬虫遇到的问题

原来网址已经失效了，结合重定向的问题试着配置DEFAULT_REQUEST_HEADERS，最终修改settings.py设置文件如下：

Scrapy爬虫遇到的问题

并开启注释，COOKIES_ENABLED=False

Scrapy爬虫遇到的问题

此时，在控制台再次运行代码，代码正常运行。

猜你喜欢

LeetCode笔记：137. Single Number II
等保测评机构推荐证书撤销，纳入国家认证体系
pycharm怎么设置中文？
ArcGIS JS API 加载 TMS 地图瓦片
pycharm不能自动保存怎么解决？
Python3简单使用xmlrpc实现RPC
怎么在cmd里运行spyder？
怎么设置py文件默认spyder打开？
iOS中的浅复制与深复制
pycharm免费版够用吗
LeetCode笔记：141. Linked List Cycle
黑客入侵微软邮件服务器、Windows零日漏洞可获管理员权限｜11月23日全球网络安全热点
pycharm中无法import怎么办
安装dlib成功但import时显示undefined symbol:cblas_ddot
pycharm怎么运行python代码
pycharm怎么新建项目
iOS10.3后允许App运行中变更App图标
pycharm怎么缩进代码
Cesium 组件重写
pycharm引入模块报错怎么解决

zl程序教程

当前栏目

Scrapy爬虫遇到的问题

相关文章