当流量尖峰到达时,在 Linux 内核中解决网络问题
几周前,我们开始注意位于华盛顿的追踪API的服务器网络流量有很大的变化。从一个相当稳定的日常模式下,我们开始看到300-400 Mbps尖峰流量,但我们的合法的流量(事件和人为更新)是不变的。
突然,我们的网络流量开始飙升像疯了似的。
找到虚假的流量来源是当务之急,因为这些尖峰流量正触发我们的上游路由器启动DDOS减灾模式来阻止流量。
有一些很好的内置的Linux工具帮助诊断网络问题。
netstat -s 会告诉由内核网络协议栈维护的一大堆的计数器值,例如ACK的数量,重发的数量等。
解决问题的线索是使用netstat -s命令的输出。 不幸的是,当你检查这个命令的输出的时候,还很难告诉这些数字意味着什么,应该是什么,以及它们是如何改变的。为了检查他们是如何变化的,我们创建了一个小程序来显示连续运行命令的输出,这让我们了解各种计数器变化的快慢。有一行输出看起来特别令人担忧。
此计数器的通常速率在未受影响的服务器上一般是 30-40 /秒,所以我们知道肯定是哪里出问题了。计数器表明我们正拒绝大量的包,因为这些包含有无效的 TCP 时间戳。临时的快速解决方案是用下面的命令关闭 TCP 时间戳:
sysctl -w net.ipv4.tcp_timestamps=0
这立即导致了包风暴停止。但是这不是一个永久性的解决方案,因为 TCP 时间戳是用于测量往返时间和分配数据包流中的延迟包到正确位置。在高速连接的时候这将成为一个问题,TCP 序列号可能在数秒间隔内缠绕。关于 TCP 的时间戳和性能的详细信息,请看 RFC 1323。
在 Mixpanel,每当我们看到异常流量模式的时候,我们一般也运行 tcpdump,这样我们能够分析流量,然后试图确定根本原因。我们发现大量的 TCP ACK 数据包在我们的 API 服务器和一个特定的 IP 地址之间来回发送。结果我们的服务器陷入到向另一台服务器来来回回发送 TCP ACK 包的无限循环里面。一个主机持续地发出 TCP 时间戳,但是另一主机却不能识别这是有效的时间戳。
这时,我们意识到我们正在处理一个只能在 Linux 内核的 TCP 协议栈才能解决问题。所以我们的 CTO求助于 linux-netdev 看看是否能找到一个解决方案。值得庆幸的是我们发现这个问题已经遇到过的,并且有一个解决方案。原来,这种类型的包风暴可以由一些硬件故障或第三方改变 TCP SEQ,ACK,或连接中的主机认为对方发送过期的数据包所触发。避免让这种情况变成一个包风暴的方法是限制速度,设置 Linux 发送重复的 ACK 数据包速度为每秒一个或两个。这里有一个非常好的解释。
我们将接受这个补丁而且将之移植到当前正在使用的Ubuntu(Trusty)内核当中。感谢Ubuntu让这一切变得非常简单,重新编译修补过的内核仅仅只需要运行下面的命令,安装生成的.deb包并重启系统。
# 下载内核源代码并构建依赖 apt-get build-dep linux-image-3.13.0-45-generic apt-get source linux-image-3.13.0-45-generic # 应用补丁 cd linux-lts-trusty-3.13.0/ patch -p1 Mitigate-TCP-ACK-Loops.patch # 构建内核 fakeroot ./debian/rules clean fakeroot ./debian/rules binary-headers binary-generic
网络运营系列(二):“交易促销型流量”在双11网络容量评估中的智能识别 如果将日常网络平稳运营比喻成人体的日常态,双11流量则相当于人体血压瞬间暴增,正如血液在人体供应受阻会引起心梗、脑梗,流量洪峰时的网络堵塞也会引起交易的不畅。
k8s使用kube-router网络插件并监控流量状态 kube-router是一个新的k8s的网络插件,使用lvs做服务的代理及负载均衡,使用iptables来做网络的隔离策略。部署简单,只需要在每个节点部署一个daemonset即可,高性能,易维护。
阿里云全球首推流量型独享虚拟主机新规格,网络访问速度最高提升400% 近日,为了提升用户网站访问体验,阿里云虚拟主机宣布推出流量型独享虚拟主机新规格,流量型独享虚拟主机新规格可以提供高速流量包,提高访问速度。在高速流量包用尽后,网站也不会关停,可自动降为低带宽模式,保证网站一直在线。
【阿里云MVP第五期】安畅网络韩军辉:ELK在数据中心流量分析中的应用 本文节选自阿里云MVP第五期嘉宾上海安畅运维专家韩军辉分享话题《ELK在运维工作中应用两三事》。从实际应用的角度,分享了ELK在混合云数据中心场景下流量收集、分析、存储、展现、告警中的实践。
相关文章
- Linux alias理解及设置
- linux man page 命令手册
- linux那点事儿(七)----文件系统管理
- linux下解压命令大全
- linux(centos8):为prometheus安装grafana(grafana-7.0.3)
- linux shell expr 使用
- Linux内核参数vm.swappiness
- LINUX内核设计与实现
- Linux内核漏洞精准检测如何做?SCA工具不能只在软件层面
- Linux内核编译:很少有人提及的一些内容
- 【Linux 内核 内存管理】分区伙伴分配器 ⑤ ( 区域水线 | 区域水线数据结构 zone_watermarks 枚举 | 内存区域 zone 中的区域水线 watermark 成员 )
- 【Linux 内核 内存管理】mmap 系统调用源码分析 ③ ( vm_mmap_pgoff 函数执行流程 | vm_mmap_pgoff 函数源码 )
- 【Linux 内核】调度器 ⑧ ( 进程优先级源码 includelinuxschedprio.h | 进程分类 | 实时进程 | 普通进程 | 进程优先级数值 | 0 ~ 99 实时进程 )
- 【Linux 内核】调度器 ② ( sched_class 调度类结构体源码 | 源码路径 linux-5.6.18kernelschedsched.h )
- 【Linux 内核】编译 Linux 内核 ① ( 下载指定版本的 Linux 内核源码 | Linux 内核版本号含义 | 主版本号 | 次版本号 | 小版本号 | 稳定版本 )
- linux下可以禁用的一些服务
- L80.linux命令每日一练 -- 第11章 Linux系统管理命令 -- ntsysv和setup
- linux内核radeon gpu源码解析8—— radeon_driver_load_kms函数详解3
- 嵌入式linux开发,served库移植,served交叉编译
- conda安装r Linux系统中 linux中安装r
- Linux 权限使用 777 真的好吗?
- 【linux】Linux操作系统常用指令大全
- Linux dmesg 命令 - 打印内核环形缓冲区