您现在的位置是：首页 > 后端

当前栏目

爬虫CrawlSpider原理

爬虫原理

2023-06-13 09:18:00 时间

提问：如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话，有几种实现方法？

方法一：基于Scrapy框架中的Spider的递归爬去进行实现的(Request模块回调)

方法二：基于CrawlSpider的自动爬去进行实现(更加简洁和高效)

一、简单介绍CrawlSpider

　　CrawlSpider其实是Spider的一个子类，除了继承到Spider的特性和功能外，还派生除了其自己独有的更加强大的特性和功能。其中最显著的功能就是”LinkExtractors链接提取器“。Spider是所有爬虫的基类，其设计原则只是为了爬取start_url列表中网页，而从爬取到的网页中提取出的url进行继续的爬取工作使用CrawlSpider更合适。

二、使用

　　1.创建scrapy工程(cmd切换到要创建项目的文件夹下执行)：scrapy startproject projectName （如：scrapy startproject crawlPro）

2.创建爬虫文件(cmd切换到创建的项目下执行)：scrapy genspider -t crawl spiderName www.xxx.com (如：scrapy genspider -t crawl crawlDemo www.qiushibaike.com)

–此指令对比以前的指令多了 “-t crawl”，表示创建的爬虫文件是基于CrawlSpider这个类的，而不再是Spider这个基类。

3.启动爬虫文件(cmd基于步骤二的路径执行)：scrapy crawl crawlDemo (启动的一定是name对应的值，如果爬虫文件与name的值不一致，任然以name的值进行启动)

猜你喜欢

OpenCV 4.3 来了！功能增加，性能加速
如何在Linux系统中查看和修改文件的日期？（linux文件日期）
老牌邮件列表程序 Mailman 历经十余年后发布 3.0
java中修饰符的用法_定义类的修饰符有哪些
利用Redis Key通配符加速检索（rediskey通配符）
命令行技巧：分割文件内容
使用MySQL中STR函数实现字符串操作（mysql 中 str）
Linux命令行中的文件合并技巧（linux合并文件命令行）
在生产环境中使用Spring Cloud Sleuth的注意事项（一）
JavaScriptEvent学习补遗addEventSimple
CHM集锦(CHM)
数据库使用Qt连接Oracle数据库:一步一步实现（qt连接oracle）
Linux 下文件大小无忧拆分（linux 文件拆分）
PDF阅读器 PDF Acrobat Reader DC 2020中文版软件安装包免费下载以及安装教程
Linux下如何设置jar包路径（linuxjar包路径）
UE(4)：PBR材质
Swift3创建数组
剑指Offer题解 - Day65
yew SSR 服务器端渲染，和 tide、actix-web、warp 一起
RocksDB 优化小解（一）：Indexing SST
PHP间隔一段时间执行代码的方法
MySQL通过参数化查询实现数据控制（mysql参数化查询）

zl程序教程

当前栏目

爬虫CrawlSpider原理

相关文章