您现在的位置是：首页 > 数据库

当前栏目

基于Redis的爬虫平台的实现

Redis 爬虫平台实现基于

2023-09-11 14:19:37 时间

一、需求：

1.数据抓取：目标数据的下载、解析、入库功能。

2.数据服务：黑名单、灰名单等查询服务。

3.平台监控：平台各个模块的数据实时监控。

二、WEB端效果展示：

三、架构设计

下载器、解析器、持久器、调度器都支持独立部署，可横向拓展部署多台服务。解耦。

下载器内部开启多线程下载；

解析器从待解析队列取数据，分支抽链、解析；

调度器和持久器都放在web工程中，项目启动时抓取任务初始化+持久器任务开启。

下载器、解析器、调度器、持久器都依赖于底层基础DAO服务。

四、技术选型

1.下载器和解析器：尝试过很多种，Jsoup、Jspider、Xpath、httpclient、HtmlUnit等。基本功能都可以。Jsoup可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。Jsoup的强大选择器最终让我选择了它。

2.生产消费介质：这里有很多种：消息队列MQ、缓存容器redis等都可以胜任。作为一次练手，采用单台redis作为消费介质（内部串行执行），可避免多线程并发问题，数据结构为list。

猜你喜欢

什么是创新型人才，创新型企业？
SAP CRM settype COMM_PROD_VAR
华为交换机配置ACL限制用户通过HTTP/SSH登录设备，只允许指定IP登录交换机
防火墙(iptablesfirewalld)深入研究 —— 筑梦之路
ASP.NET (Core) WebAPI IIS PUT和DELETE请求失败 405的解决办法
用Python做一个游戏辅助脚本，完整编程思路分享！
使用 MailOtto 做完美预加载
Atitit 常见软件设计图纸总结目录 1.1. ui原型图与html2 1.2. 业务逻辑伪代码各种uml图2 1.3. 总体设计图纸结构图层次图架构图2 1.4. 业务逻辑
HDU2276 - Kiki & Little Kiki 2(矩阵高速幂)
LeetCode（5）：最长回文子串
Scala 类和对象详解
python 快速删除 pycache
在OpenCV里用circle画圆图形
CoAtNet
一文读懂 babel7 的配置文件加载逻辑
Qt 编译方式之 cmake
Rockchip官方开发板的Android固件下载地址汇总
Android 11.0 SystemUI去掉下拉状态栏拖动亮度条QSPanel界面隐藏功能
【LeetCode Python实现】8. 字符串转换整数 (atoi)（中等）
conscript 动词在商务英语中的用途
rk3399Camera软件框架
jquery中的ajax方法参数的用法和他的含义：

相关主题

python之redis
Redis-缓存击穿
MVC + Redis
[redis] 又见redis