Linux有问必答:nginx网络服务器上如何阻止特定用户代理(UA)
问题: 我注意到有一些机器人经常访问我的nginx驱动的网站,并且进行一些攻击性的扫描,导致消耗掉了我的网络服务器的大量资源。我一直尝试着通过用户代理符串来阻挡这些机器人。我怎样才能在nginx网络服务器上阻挡掉特定的用户代理呢?
现代互联网滋生了大量各种各样的恶意机器人和网络爬虫,比如像恶意软件机器人、垃圾邮件程序或内容刮刀,这些恶意工具一直偷偷摸摸地扫描你的网站,干些诸如检测潜在网站漏洞、收获电子邮件地址,或者只是从你的网站偷取内容。大多数机器人能够通过它们的“用户代理”签名字符串来识别。
作为第一道防线,你可以尝试通过将这些机器人的用户代理字符串添加入robots.txt文件来阻止这些恶意软件机器人访问你的网站。但是,很不幸的是,该操作只针对那些“行为良好”的机器人,这些机器人被设计遵循robots.txt的规范。许多恶意软件机器人可以很容易地忽略掉robots.txt,然后随意扫描你的网站。
另一个用以阻挡特定机器人的途径,就是配置你的网络服务器,通过特定的用户代理字符串拒绝要求提供内容的请求。本文就是说明如何在nginx网络服务器上阻挡特定的用户代理。
要配置用户代理阻挡列表,请打开你的网站的nginx配置文件,找到server定义部分。该文件可能会放在不同的地方,这取决于你的nginx配置或Linux版本(如,/etc/nginx/nginx.conf,/etc/nginx/sites-enabled/ your-site ,/usr/local/nginx/conf/nginx.conf,/etc/nginx/conf.d/ your-site )。
server { listen 80 default_server; server_name xmodulo.com; root /usr/share/nginx/html; ....
在打开该配置文件并找到 server 部分后,添加以下 if 声明到该部分内的某个地方。
server { listen 80 default_server; server_name xmodulo.com; root /usr/share/nginx/html; # 大小写敏感的匹配 if ($http_user_agent ~ (Antivirx|Arian) { return 403; #大小写无关的匹配 if ($http_user_agent ~* (netcrawl|npbot|malicious)) { return 403; ....
如你所想,这些 if 声明使用正则表达式匹配了任意不良用户字符串,并向匹配的对象返回403 HTTP状态码。$http_user_agent是HTTP请求中的一个包含有用户代理字符串的变量。‘~’操作符针对用户代理字符串进行大小写敏感匹配,而‘~*’操作符则进行大小写无关匹配。‘|’操作符是逻辑或,因此,你可以在 if 声明中放入众多的用户代理关键字,然后将它们全部阻挡掉。
在修改配置文件后,你必须重新加载nginx以激活阻挡:
$ sudo /path/to/nginx -s reload
你可以通过使用带有 “--user-agent” 选项的 wget 测试用户代理阻挡。
$ wget --user-agent "malicious bot" http:// nginx-ip-address
目前为止,我已经展示了在nginx中如何阻挡一些用户代理的HTTP请求。如果你有许多不同类型的网络爬虫机器人要阻挡,又该怎么办呢?
由于用户代理黑名单会增长得很大,所以将它们放在nginx的server部分不是个好点子。取而代之的是,你可以创建一个独立的文件,在该文件中列出所有被阻挡的用户代理。例如,让我们创建/etc/nginx/useragent.rules,并定义以下面的格式定义所有被阻挡的用户代理的图谱。
$ sudo vi /etc/nginx/useragent.rules
map $http_user_agent $badagent { default 0; ~*malicious 1; ~*backdoor 1; ~*netcrawler 1; ~Antivirx 1; ~Arian 1; ~webbandit 1;
与先前的配置类似,‘~*’将匹配以大小写不敏感的方式匹配关键字,而‘~’将使用大小写敏感的正则表达式匹配关键字。“default 0”行所表达的意思是,任何其它文件中未被列出的用户代理将被允许。
接下来,打开你的网站的nginx配置文件,找到里面包含 http 的部分,然后添加以下行到 http 部分某个位置。
http { ..... include /etc/nginx/useragent.rules
注意,该 include 声明必须出现在 server 部分之前(这就是为什么我们将它添加到了 http 部分里)。
现在,打开nginx配置定义你的服务器的部分,添加以下 if 声明:
server { .... if ($badagent) { return 403; ....
最后,重新加载nginx。
$ sudo /path/to/nginx -s reload
现在,任何包含有/etc/nginx/useragent.rules中列出的关键字的用户代理将被nginx自动禁止。
原文发布时间:2015-05-22
本文来自云栖合作伙伴“linux中国”
小满Linux(第七章Nginx配置文件) 全局块是默认配置文件从开始到events块之间的一部分内容,主要设置一些影响Nginx服务器整体运行的配置指令,因此,这些指令的作用域是Nginx服务器全局。
小满Linux(第五章Linux安装Nginx) RE(Perl Compatible Regular Expressions) 是一个Perl库,包括 perl 兼容的正则表达式库。nginx 的 http 模块使用 pcre 来解析正则表达式,所以需要在 linux 上安装 pcre 库,pcre-devel 是使用 pcre 开发的一个二次开发库。nginx也需要此库。
小满Linux(第四章介绍Nginx) 高并发,大流量:需要面对高并发用户,大流量访问。举个例子,去往迪拜的飞机有200张票,但是有100w人都挤进系统买票,如何让这100w人能够看到票务的实时更新,以及顺利的买到一张票,都是一个网站架构师应该考虑的问题。这也许对于淘宝的“双十一”1000w的一分钟独立访问用户量来说,是个微不足道的数字,但是对于用户的体验以及网站的口碑来说,都是一项不小的挑战
.NET Core 发布最美 Linux/ElementaryOS 并实现 Nginx 反向代理访问 好久没写博客了,今天分享一下 `ASP.NET Core MVC` 发布部署【最美Linux】`elementaryos-5.0-stable` 服务器,并配置 `Nginx` 实现域名访问:一,Demo 测试环境 =》操作系统:`Windows 10 V1903` 版本,虚拟机:`Hyper-V`,虚拟机配置系统:`elementaryos-5.0-stable.20181016`;步骤1:【准备工作】准备一...
相关文章
- [Linux] git send-email的使用
- linux下使用yum安装telnet
- 每天一个linux命令(24):Linux文件类型与扩展名
- 每天一个linux命令(18):locate 命令
- 【学习总结】快速上手Linux玩转典型应用-第6章-linux常用命令讲解
- ORACLE LINUX 6.3 + ORACLE 11.2.0.3 RAC + VBOX安装文档
- Linux中find常见用法示例
- 【Linux基础】linux updatedb命令
- 【Linux基础】linux下修改ls显示的时间格式
- linux shell 脚本攻略学习13--file命令详解,diff命令详解
- 【学习总结】快速上手Linux玩转典型应用-第6章-linux常用命令讲解
- Linux系统调优详解(十)——CPU调优
- Linux桌面操作系统权威排名网址
- linux常用命令:系统目录说明及命令ls,cp,touch,history,gparted分区
- Linux pipe功能
- 004-linux命令-搜索命令find、locate、whereis、which、type、grep
- L71.linux命令每日一练 -- 第十章 Linux网络管理命令 -- wget和mailq
- L69.linux命令每日一练 -- 第十章 Linux网络管理命令 -- arpping和telnet
- L66.linux命令每日一练 -- 第十章 Linux网络管理命令 -- arp和ip
- L57.linux命令每日一练 -- 第九章 Linux进程管理命令 -- ps和pstree
- L53.linux命令每日一练 -- 第八章 Linux磁盘与文件系统管理命令 -- dd和mount
- L52.linux命令每日一练 -- 第八章 Linux磁盘与文件系统管理命令 -- resize2fs和fsck
- L33.linux命令每日一练 -- 第五章 Linux信息显示与搜索文件命令 -- du和date
- 学习笔记 | Linux系列教程之文本三剑客 - awk、grep、sed从入门到实战
- 嵌入式Linux开发,Ubuntu22下交叉编译报错:make[1]: aarch64-linux-gnu-gcc: No such file or directory
- 查看linux系统配置 查询Linux配置
- 使用wget批量下载geo数据集的全部文件 linux下载geo数据 geo处理的数据不是下载原始数据 Linux如何下载ftp文件 geo ftp geo ftp下载 geo下载
- linux top命令及结果详解 top -p 查看Linux程序运行进程
- linux===给新手的 10 个有用 Linux 命令行技巧(转)
- Linux: TCP: socket: option: TCP_REPAIR_OPTIONS,TCP_REPAIR,TCP_REPAIR_QUEUE
- Linux常见面试题-ps查看进程命令
- 锁定文件失败 打不开磁盘“D:DocumentsVirtual MachinesRed Hat Enterprise Linux 6 64 位Red Hat Enterprise Linux
- 02 从头开始atac项目 ubuntu20 install r4.2 Linux系统环境配置 服务器版本的rstudio r install in linux /ubuntu/centos