zl程序教程

您现在的位置是:首页 >  云平台

当前栏目

爬虫日记(26):使用scrapy检验代理是否有效

代理爬虫scrapy 是否 有效 日记 26 检验
2023-09-14 09:10:04 时间

在开发爬虫的过程中,往往会遇到爬虫过一段时间就会失效,所谓的失效就是前面跑得好好的,突然就开始抓取不到数据了,导致被老板一顿骂。虽然失效的原因有很多,比如前说的UA被别人识别了,又或者别人的网站真的出错了。但是往往不是这几个原因,而是对方识别出来你的IP地址,对你进行一轮升级打击了。

 

为了继续地能搜索到数据,那么别无它法,只能使用“狡兔三窟”这招了。也就是说,你要隐藏你的自己的IP地址,或者说采用其它IP地址作为跳板了。这就是所说的代理大法。如下:

由这个图可知,客户端再向服务器服务连接,不再是直接连接,而是通过代理访问了。这样的方式好处比较,比如可以模拟不同地方访问,进而获取不同地方的地方新闻,或者说本地新闻。

 

既然知道这个方法了,你也许又会问到另外一个问题,就是代理IP地址从何而来?一般来说,我们可以通过购买的方式,