您现在的位置是：首页 > Java

当前栏目

scrapy小实例

2023-02-18 16:47:49 时间

1.在安装好scrapy后，使用scrapy startproject +项目名来创建一个scrapy项目，如下图即创建成功：

2. 使用tree命令可以查看项目的目录结构：

3.进入spilder目录下，使用：scrapy genspider +文件名+网址命令来创建一个爬虫文件：

4.可以使用命令：

scrapy list ：来查看列出当前项目中的所有可用爬虫

scrapy check：运行 contract 检查

scrapy crawl +爬虫名（不是文件名）：使用爬虫开始爬行

5.运行后并没有什么变化，我们改一下刚生成的Duba.py文件。

# -*- coding: utf-8 -*- import scrapy class DubaSpider(scrapy.Spider): name = 'Duba' allowed_domains = ['www.douban.com'] start_urls = ['https://www.douban.com/'] def parse(self, response): print(response.body) #pass

发现豆瓣并爬不到东西，这个可能是豆瓣做了一定的防爬虫处理，因为我们还没有设置一些头信息，所以很容易被识别的。

我又换了一下淘宝的：

# -*- coding: utf-8 -*- import scrapy class DubaSpider(scrapy.Spider): name = 'Duba' allowed_domains = ['www.taobao.com'] start_urls = ['https://www.taobao.com/'] def parse(self, response): print(response.body) #pass

果然，淘宝的页面数据是可以正常输出的。接下来对数据就交给item管道（Item pipeline）去处理。

注意：有可能会出现DNS lookup failed:No results for hostname lookup:http，这样的问题。可以修改setting.py文件，将ROBOTSTXT_OBEY = True 改为False就可以了。

接下来我们在settings.py文件中添加USER_AGENT 信息，再爬一下，OK，可以正常爬到网页啦

猜你喜欢

CSS之旅——第三站强大的伪选择器
性能分析中看到螺旋线的影子
CSS之旅——第二站如何更深入的理解各种选择器
风螺旋线的画法比较（三）
CSS之旅——第一站为什么要用CSS
风螺旋线的画法比较（二）
记录一些在用wcf的过程中走过的泥巴路【第一篇】
风螺旋线的画法比较（一）
风螺旋线的进入
3D转弯保护区长啥样？
风螺旋线公切线的算法
风螺旋线的外扩算法
风螺旋线的切线（二）
风螺旋线的切线（一）
风螺旋线的公式
风螺旋的核心是旋转
偏流角为什么是arcsin(w/V)
Java设计模式之观察者模式
Python字典常用的函数和方法_Python自学第二十七节
Java设计模式之迭代器模式

zl程序教程

当前栏目

scrapy小实例

相关文章