Scrapy爬虫遇到的问题
2023-04-18 14:49:06 时间
今天做python爬虫时,之前可以爬取的网站网址显示:
爬取内容为空。
依次查找问题:
(1)INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
报错提示Scrapy爬虫没有任何数据返回,需要修改settings.py设置文件中的ROBOTST_OBEY,将其默认值True改为False。
(2)[scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (302)
检查代码是,已经使用了 User-Agent,并且源连接直接在浏览器打开并不跳转,使用requests测试,发现并没有被重定向。搜索很久无果,然后开始检查 [scrapy.downloadermiddlewares.redirect] DEBUG,检查完并没有配置与这个相关的(DEFAULT_REQUEST_HEADERS)。
(3)[scrapy.core.engine] DEBUG: Crawled (403)
我将我要爬取的网址直接在浏览器输入,发现无法直接打开,页面显示如下:
原来网址已经失效了,结合重定向的问题试着配置DEFAULT_REQUEST_HEADERS,最终修改settings.py设置文件如下:
并开启注释,COOKIES_ENABLED=False
此时,在控制台再次运行代码,代码正常运行。
相关文章
- 学会Python开发的第一步:写一个桌面小程序
- 深入浅出PyTorch(一)之mac安装
- mac 安装SVN报错Error: Command failed with exit 128: git
- Mac如何安装telnet命令
- MacOS安装python,报错“zsh: command not found: python”【已解决】
- python安装教程(mac版)
- 【Mac版】Python安装教程--Python安装步骤
- 云小课|MRS基础操作之配置DataNode容量均衡
- GaussDB(DWS)迁移:一种执行高效的TereData的marco迁移方案
- DataX插件二次开发指南
- 对window.onload()的理解
- CloudCanal对Online DDL 工具 GH-OST 和 PT-OSC 的支持
- 记录--千万别让 console.log 上生产!用 Performance 和 Memory 告诉你为什么
- element-ui 对话框dialog里使用echarts,报错'dom没有获取到'?
- 闭包是什么,有什么用途
- 事务的ACID特性
- yarn和npm的区别
- 事件循环Event Loop
- StoneDB 读、写操作的执行过程
- 节流VS防抖