从Web服务器的攻击防御工具HttpGuard(防cc攻击等)看Web服务器的反爬虫设置 —— 如何优化爬虫的性能
2023-09-11 14:19:19 时间
HttpGuard网址:
https://github.com/centos-bz/HttpGuard
从https://vv1234.cn/archives/243.html可知,如果同个IP的访问在一定时间内超过一定数量那么就会被判为异常并进行拦截。
从https://cloud.tencent.com/developer/article/1430620?from=15425&areaSource=102001.1&traceId=SBnf0St8_Ib9v_pQtdhQq中我们可以知道,web服务器对单IP的访问限制一般为:
1. 设置单IP每秒的最多访问数;
2. 设置一段时间内单IP的最多访问数,如几秒时间内的总访问数不超过某值;
3. 设置单IP的最大访问连接数。
对于前两种我们可以在正式爬取前做一下测试,提前判断一下这个数值,比如最后判断出每秒的访问数不能超过5次,那么我们就可以在正式编写爬虫时把每秒请求数值定为4或者3,这样再保证爬虫性能的同时又能避免被拦截。
而对于第三点,我们就需要在编写爬虫时注意对请求访问的关闭,每次访问获取到信息后一定要第一时间关闭,在新的访问发起前一定要保证之前的访问连接已关闭。
在保证上面的几点后,我们在正式编写对某个网站的爬虫时也是要提前做好测试,只有这样才能把最终的爬虫性能性能做到最高。
==========================
相关文章
- 科技云报道:AI攻击AI,升级的网络安全战
- 《Web应用漏洞侦测与防御:揭秘鲜为人知的攻击手段和防御技术》——第1章 HTML5
- 挫败APT攻击从网络安全基础工作做起
- RSA攻击方法总结笔记整理
- 结合重复数据删除和Rowhammer的攻击怎么解?
- Akamai发现全新SEO网络应用攻击活动
- 一次Linux系统被攻击的分析过程
- 崛起中的“无文件式”恶意软件攻击
- 警惕利用CVE-2015-2545漏洞进行针对性攻击
- PoS机恶意软件MajikPOS攻击北美和加拿大用户
- Samba曝出7年漏洞 1行代码即可远程攻击
- 调查:全球受攻击的IoT设备呈指数级增长
- 【Unity】动作游戏开发实战详细分析-26-组合攻击
- C段渗透攻击必看的技术知识