zl程序教程

您现在的位置是:首页 >  Javascript

当前栏目

Web机器人记录访问地和避免在动态虚拟web空间的循环和重复

2023-03-15 22:06:15 时间

版权声明:内容采集自 《HTTP权威指南》

URL去重 – 基于hash算法的存储   对每一个给定的URL,都是用一个已经建立好的Hash函数,映射到某个物理地址上。当需要进行检测URL是否重复的时候,只需要将这个URL进行Hash映射,如果得到的地址已经存在,说明已经被下载过,放弃下载,否则,将该URL及其Hash地址作为键值对存放到Hash表中。这样,URL去重存储库就是要维护一个Hash表,如果Hash函数设计的不好,在进行映射的时候,发生碰撞的几率很大,则再进行碰撞的处理也非常复杂。而且,这里使用的是URL作为键,URL字符串也占用了很大的存储空间。

爬虫策略 – 广度优先搜索   广度优先策略是指在抓取过程中,在完成当前层次的搜索后,才进行下一层次的搜索。该算法的设计和实现相对简单。在目前为覆盖尽可能多的网页,一般使用广度优先搜索方法。也有很多研究将广度优先搜索策略应用于聚焦爬虫中。其基本思想是认为与初始URL在一定链接距离内的网页具有主题相关性的概率很大。另外一种方法是将广度优先搜索与网页过滤技术结合使用,先用广度优先搜索策略抓取网页,再将其中无关的网页过滤掉。这些方法的缺点在于,随着抓取网页的增多,大量的无关网页将被下载并过滤,算法的效率将变低。

全链接爬取时如何记录已经访问过的url:

so:

and

已知服务器信息时,如何过滤存在别名的url地址:

such as:

so:

如何避免在动态虚拟web空间的循环和重复?

SO