网络爬虫小偏方:突破登录和访问频率限制,多研究对方不同终端产品
2023-03-15 23:12:48 时间
其实在抓取数据时,如果有大量的离散账号和离散IP的话,抓取数据就问题不大了。但相信大部分的爬虫选手们都没有这么多的资源,所以就会绞尽脑汁研究和各种尝试对方的访问控制策略,如果始终无法破局,这时就要跳出来想下其他办法,比如多使用一下对方的产品,包括APP,网站,微信等,抓包看看他们之间的URL有没有关联,访问控制策略是否一致等,有时你会找到新的突破口。
比如想要某职业社交APP里的一些用户详细页的信息用来做分析,可能面临如下问题:
- 该APP必须登陆才能访问所有页面。
- 你的账号如果没有关注对方,对方的详细介绍页面的很多信息就被隐藏了。
- APP的用户详细页面一个账号大概只能访问100次/天(有点记不清具体数字了)就不能访问了。
俺注册了10个该APP账号,模拟登录后一天只能抓1000千多个,还有好些数据不全(因为没有关注对方), 实在离俺想要的数据量相差较远。 总结上面的问题就是没有足够多的账号,就算账号足够多,每个账号和每个ip也有抓取限制。
于是就把该产品的APP,微信,网页里里外外都翻了一遍,能点的地方都去点一下看看。
有了新的发现:
- 该APP的用户详细页分享到微信后,通过微信打开可以直接访问,不需要登录,也不需要微信授权,用户详细页信息都是全的(解决了需要关注才能查看全面信息问题)。
- 通过APP获取分享到微信的url的接口访问频率控制放得很宽松。
- 虽然在微信上不用登录访问,没有账号限制了,但是还是有单个IP的访问频率控制。
分析完后,终得出新的抓取思路,就是:
使用10个账号按一定频次通过APP不停的获取每个用户详细页分享到微信的URL,让另外一个程序模仿微信的user-agent不停的访问这些分享到微信的URL(要使用adsl拨号来解决单个IP访问频率控制问题)。 这样通过app加微信的方式解决了对账号的限制问题,实现了曲线救国。
后就发现好些抓取问题都有这种解决思路,跟我们在网络爬虫小偏方之一里讲的,有的网站为了SEO流量,而把referer来自百度的访问控制放宽了一样。 有的产品为了微信的流量(分享到微信里的页面可以直接打开,点击其他页面时再提示要注册登录),而对来自微信点击访问控制放宽了。
友情提示:抓取这些社交信息,要合理合法使用,对关键信息最好脱敏,不要买卖这类数据。
相关文章
- 大数据、人工智能与云计算的融合与应用
- 中国邮政大数据平台建设之总体架构与实现
- 大数据创新应用:高速公路的数据存储及处理
- 如何用 javaweb来写在线聊天应用
- 提高Android开发效率的9个Web工具
- 终于有人把云计算、大数据和人工智能讲明白了!
- 大数据分析如何创建更好的移动应用用户体验
- Hadoop生态系统应用状况大调查:互联网篇!
- 大数据行业洞察:未来2-3年或迎数据时代的真正高潮
- Wikibon:云将成为收获大数据分析财富的催化剂
- 不是技术也能看懂云计算,大数据,人工智能
- 大数据在云端的应用需要改变IT技能集
- 5年大数据,看互联网下的“花样”春节
- 思科:3年后几乎所有数据中心工作负载都将是基于云的
- 【揭秘】中国四大银行的大数据应用已到什么阶段
- 大数据产业“黄金期”面临四道坎
- 大数据解析春节出游哪家APP订房更靠谱
- 态牛-Tech Neo 12月刊:人工智能的应用场景
- 物联网与大数据的应用结合让人类生活更美好
- 2017年我国大数据产业发展五大新突破