您现在的位置是：首页 > 后端

当前栏目

爬虫 DATA/URL 去重

爬虫 Data url

2023-09-14 09:00:32 时间

爬虫 DATA/URL 去重

舆情业务必须紧盯网站是否有新的内容发布，要求是越快越好，但由于各项软硬件限制，通常会要求在 30 分钟内或者 15 分钟内监听到新内容。要实现对目标网站内容变化的监听，那么我们可以选择的比较好的方式就是轮询。不停地访问网页，并且判断是否有“新内容”出现，如果有的话就执行爬取，没有“新内容”就不爬取。

那么问题来了，应用程序如何知道哪些内容是“新的”、哪些内容又是“旧的”的呢？

问题拆解一下，“新内容”就是没有爬过的内容。这时候我们需要用一个东西来记录这篇文章是否被爬取过，每次有要爬取的文章时就比对一下，这就是解决这个问题的办法。

那又依靠什么来进行比对呢？

我们都知道文章的 URL 几乎都是不变且不会重复的，因此可以选择文章的 URL 作为判定的依据，也就是把爬取过的 URL 放到一个类似列表一样的容器里存储起来，每次有待爬取的 URL 就判断它是否已经被存在容器里，如果在就说明已经爬过了，直接丢弃，进入下一个 URL 的判断流程。整体逻辑就像下面这张图一样：

这就是爬虫领域的“去重”。实际上去重可以粗略的分为内容（DATA）去重和链接（URL）去重，这里我们讲的只是舆情方向的去重需求，如果是电商方向的去重，那么就不能用 URL 作为判断依据，因为电商爬虫（例如比价软件）的目的主要是判断价格的变化，这时候判断变化的依据应该是商品的关键信息（例如价格、折扣），也就是 DATA 去重。

去重的原理明白了，那用什么东西作为存放去重依据的容器呢？MySQL？Redis？MongoDB？内存？实际上大部分工程师都选择 Redis 作为存放去重依据的容器，但实际上 MySQL、MongoDB 和内存都是可以充当容器的，至于为什么会选择 Redis，它又比其他数据存储好在哪里？

猜你喜欢

探索Linux命令行运行之路（linux怎么运行命令）
sqli-labs Lesson-5-6 双重注入
天花板级微服务大佬总结出这份451页笔记告诉你微服务就该这么学
JS是按值传递还是按引用传递
js 后退刷新[通俗易懂]
驱动开发：内核封装TDI网络通信接口
解决图片路径中含有中文在jsp下不能正常显示问题
git提交代码流程
Linux系统如何显示当前的年月日？（linux显示年月日）
《代码英雄》们的史诗，是由开源贡献者们谱就的
测试红色宝石探索黑盒测试之路（redis黑盒）
SkeyeExPlayer(Windows)开发之框架讲解
南域剑盟文件捆绑器2010
在网易有道做语音算法工程师是一种怎样的体验？
ORA-25002: cannot create INSTEAD OF triggers on tables ORACLE 报错故障修复远程处理
MySQL远程访问设置及安全密码实施（mysql远程访问密码）
初学Linux，达内视频教程带你入门（达内linux视频教程）
Linux下Ruby软件卸载指南（linuxruby卸载）
Oracle中逗号分隔的多值数据（oracle中分隔逗号）

相关主题

python 爬虫2
Python爬虫-函数
爬虫笔记1
爬虫解析
反爬虫
爬虫笔记

zl程序教程

当前栏目

爬虫 DATA/URL 去重

爬虫 DATA/URL 去重

相关文章