您现在的位置是：首页 > Javascript

当前栏目

Web机器人记录访问地和避免在动态虚拟web空间的循环和重复

Web

2023-03-15 22:06:15 时间

版权声明：内容采集自《HTTP权威指南》

URL去重 – 基于hash算法的存储　　对每一个给定的URL，都是用一个已经建立好的Hash函数，映射到某个物理地址上。当需要进行检测URL是否重复的时候，只需要将这个URL进行Hash映射，如果得到的地址已经存在，说明已经被下载过，放弃下载，否则，将该URL及其Hash地址作为键值对存放到Hash表中。这样，URL去重存储库就是要维护一个Hash表，如果Hash函数设计的不好，在进行映射的时候，发生碰撞的几率很大，则再进行碰撞的处理也非常复杂。而且，这里使用的是URL作为键，URL字符串也占用了很大的存储空间。

爬虫策略 – 广度优先搜索　　广度优先策略是指在抓取过程中，在完成当前层次的搜索后，才进行下一层次的搜索。该算法的设计和实现相对简单。在目前为覆盖尽可能多的网页，一般使用广度优先搜索方法。也有很多研究将广度优先搜索策略应用于聚焦爬虫中。其基本思想是认为与初始URL在一定链接距离内的网页具有主题相关性的概率很大。另外一种方法是将广度优先搜索与网页过滤技术结合使用，先用广度优先搜索策略抓取网页，再将其中无关的网页过滤掉。这些方法的缺点在于，随着抓取网页的增多，大量的无关网页将被下载并过滤，算法的效率将变低。

全链接爬取时如何记录已经访问过的url：

so：

and

已知服务器信息时，如何过滤存在别名的url地址：

such as：

so:

如何避免在动态虚拟web空间的循环和重复？

猜你喜欢

Python中的函数与方法以及Bound Method和Unbound Method
从本体论开始说起——运营商关系图谱的构建及应用
一篇运维老司机的大数据平台监控宝典（2）-联通大数据集群平台监控体系详解
一篇运维老司机的大数据平台监控宝典（1）-联通大数据集群平台监控体系进程详解
Flask中的请求上下文和应用上下文
深入探讨Java中的异常与错误处理
研究学习Kotlin的一些方法
如何成为一名数据科学家？
金融服务领域的大数据：即时分析
影响大数据、机器学习和人工智能未来发展的8个因素
从未见过的堂兄杀了人，你的DNA是关键证据
一文贯通python文件读取
数据显示Java热度持续下落，日子屈指可数？
从0开始构建一个属于你自己的PHP框架
如何将Hadoop集成到工作流程中？这6个优秀实践必看
2017年5月编程语言排行榜：Java与C语言优势正开始缩小
SEO公司使用大数据优化其模型的5种方法
Java多线程之内置锁与显示锁
关于Web Workers你需要了解的七件事
20个安全可靠的免费数据源，各领域数据任你挑

zl程序教程

当前栏目

Web机器人记录访问地和避免在动态虚拟web空间的循环和重复

全链接爬取时如何记录已经访问过的url：

已知服务器信息时，如何过滤存在别名的url地址：

如何避免在动态虚拟web空间的循环和重复？

相关文章