zl程序教程

您现在的位置是:首页 >  Python

当前栏目

Scrapy爬虫遇到的问题

2023-04-18 14:49:06 时间

今天做python爬虫时,之前可以爬取的网站网址显示:

Scrapy爬虫遇到的问题

爬取内容为空。

Scrapy爬虫遇到的问题

 依次查找问题:

(1)INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)

报错提示Scrapy爬虫没有任何数据返回,需要修改settings.py设置文件中的ROBOTST_OBEY,将其默认值True改为False。

(2)[scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (302)

检查代码是,已经使用了 User-Agent,并且源连接直接在浏览器打开并不跳转,使用requests测试,发现并没有被重定向。搜索很久无果,然后开始检查 [scrapy.downloadermiddlewares.redirect] DEBUG,检查完并没有配置与这个相关的(DEFAULT_REQUEST_HEADERS)。

(3)[scrapy.core.engine] DEBUG: Crawled (403)

我将我要爬取的网址直接在浏览器输入,发现无法直接打开,页面显示如下:

Scrapy爬虫遇到的问题

原来网址已经失效了,结合重定向的问题试着配置DEFAULT_REQUEST_HEADERS,最终修改settings.py设置文件如下: 

Scrapy爬虫遇到的问题

 并开启注释,COOKIES_ENABLED=False

Scrapy爬虫遇到的问题

 此时,在控制台再次运行代码,代码正常运行。