您现在的位置是：首页 > Python

当前栏目

精通Python网络爬虫：核心技术、框架与项目实战.1.5　爬虫扩展——聚焦爬虫

Python 技术网络模块

2023-03-14 10:19:56 时间

1.5　爬虫扩展——聚焦爬虫

由于聚焦爬虫可以按对应的主题有目的地进行爬取，并且可以节省大量的服务器资源和带宽资源，具有很强的实用性，所以在此，我们将对聚焦爬虫进行详细讲解。图1-2所示为聚焦爬虫运行的流程，熟悉该流程后，我们可以更清晰地知道聚焦爬虫的工作原理和

过程。

首先，聚焦爬虫拥有一个控制中心，该控制中心负责对整个爬虫系统进行管理和监控，主要包括控制用户交互、初始化爬行器、确定主题、协调各模块之间的工作、控制爬行过程等方面。

然后，将初始的URL集合传递给URL队列，页面爬行模块会从URL队列中读取第一批URL列表，然后根据这些URL地址从互联网中进行相应的页面爬取。爬取后，将爬取到的内容传到页面数据库中存储，同时，在爬行过程中，会爬取到一些新的URL，此时，需要根据我们所定的主题使用链接过滤模块过滤掉无关链接，再将剩下来的URL链接根据主题使用链接评价模块或内容评价模块进行优先级的排序。完成后，将新的URL地址传递到URL队列中，供页面爬行模块使用。另一方面，将页面爬取并存放到页面数据库后，需要根据主题使用页面分析模块对爬取到的页面进行页面分析处理，并根据处理结果建立索引数据库，用户检索对应信息时，可以从索引数据库中进行相应的检索，并得到对应的结果。

图1-2　聚焦爬虫运行的流程

这就是聚焦爬虫的主要工作流程，了解聚焦爬虫的主要工作流程有助于我们编写聚焦爬虫，使编写的思路更加清晰。

猜你喜欢

Python图片裁剪
java 0day_Java 0day简略分析
python 闭包
新增 — 由最新一代英特尔至强可扩展处理器提供支持的 Amazon EC2 M6i 实例
面向 Amazon Redshift 的跨账户数据共享
Python - 闭包
java 观察者模型_Java-观察者模式
在AWS上使用AlphaFold进行蛋白质结构预测
Java程序员：java可以从事的工作岗位
python 闭包
在亚马逊云科技Marketplace上的SaaS架构设计——如何支持跨多账户对接
教妹学Java(三)：Java的特性
minicap java_Java JLabel.LEFT属性代码示例
python 四边形分割
python 旋转列表
【python】入门oj
在亚马逊云科技Marketplace上的SaaS架构设计——如何支持多产品使用单一账户中心
java面试题-Java基础部分-程序 03
Python打包工具
Python常见错误

zl程序教程

当前栏目

精通Python网络爬虫：核心技术、框架与项目实战.1.5　爬虫扩展——聚焦爬虫

相关文章

当前栏目

精通Python网络爬虫：核心技术、框架与项目实战.1.5 爬虫扩展——聚焦爬虫

相关文章

精通Python网络爬虫：核心技术、框架与项目实战.1.5　爬虫扩展——聚焦爬虫