您现在的位置是：首页 > 后端

当前栏目

《精通Python网络爬虫：核心技术、框架与项目实战》——1.3　网络爬虫的组成

Python 爬虫项目网络框架实战精通 1.3

2023-09-11 14:16:11 时间

本节书摘来自华章出版社《精通Python网络爬虫：核心技术、框架与项目实战》一书中的第1章，第1.3节，作者韦玮，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.3 网络爬虫的组成

接下来，我们将介绍网络爬虫的组成。网络爬虫由控制节点、爬虫节点、资源库构成。

图1-1所示是网络爬虫的控制节点和爬虫节点的结构关系。

f06ac635188406f711a2caade1342fa9d5c04ae8

可以看到，网络爬虫中可以有多个控制节点，每个控制节点下可以有多个爬虫节点，控制节点之间可以互相通信，同时，控制节点和其下的各爬虫节点之间也可以进行互相通信，属于同一个控制节点下的各爬虫节点间，亦可以互相通信。

控制节点，也叫作爬虫的中央控制器，主要负责根据URL地址分配线程，并调用爬虫节点进行具体的爬行。

爬虫节点会按照相关的算法，对网页进行具体的爬行，主要包括下载网页以及对网页的文本进行处理，爬行后，会将对应的爬行结果存储到对应的资源库中。

快速上手python的简单web框架flask python可以做很多事情，虽然它的强项在于进行向量运算和机器学习、深度学习等方面。但是在某些时候，我们仍然需要使用python对外提供web服务。
新手教程 | Python Scrapy框架HTTP代理的配置与调试做过python爬虫的都知道，HTTP代理的设置时要在发送请求前设置好，那HTTP代理的逻辑点在哪里呢？实际上，只需要在Scrapy 的项目结构中添加就好

猜你喜欢

Myeclipse详细使用教程
使用vim修改和查看16进制文件
uni-app在小程序开发者工具：TypeError: Cannot read property ‘forceUpdate‘ of undefined
English trip -- VC(情景课) 7 C How much are the shose? 鞋多少钱
Mysql数据库的监控
Java spring mvc jsp excel 导入
QWidget::setLayout: Attempting to set QLayout "" on MainWindow "", which already has a layout
二、Python3自动化运维——IP地址处理模块IPy
js检查URL字符串是否含http
一个基于node express4.0和mongodb的活动报名
fragment 小结
优美的排列
linux如何删除行首的空格
微信小程序生成海报分享：canvas绘制文字溢出如何换行
几个不错的echarts +百度地图案例
CentOS中基于不同版本安装重复包的解决方案
Mysql学习---视图/触发器/存储过程/函数/执行计划/sql优化 180101
物联网危机：俄罗斯ATM机被程序攻击后自动吐钞
微信小程序提交审核并发布详细流程
每日一小练——按字典顺序列出全部排列
Treap树笔记
c# 简单工厂模式

相关主题

Python爬虫笔记
python-切片
python镜像
Python 分布式爬虫
python 爬虫笔记
爬虫与反爬虫
python爬虫2
python爬虫-scrapy

zl程序教程

当前栏目

《精通Python网络爬虫：核心技术、框架与项目实战》——1.3　网络爬虫的组成

相关文章

当前栏目

《精通Python网络爬虫：核心技术、框架与项目实战》——1.3 网络爬虫的组成

相关文章

《精通Python网络爬虫：核心技术、框架与项目实战》——1.3　网络爬虫的组成