研究了180,000+台交换机,微软得出一个出人意料的结论!
2023-03-07 09:12:56 时间
网络设备在
数据中心的采购份额不大
但是需要背锅时总少不了网络
据微软在
2015-2017年的统计
云数据中心网络故障的三大苦主
分别是软件bug、硬件故障和配置问题
此后AI插手运维
Linkedin可编程数据中心
基于机器学习检测光模块的缺陷
百度也
基于系统日志
预测交换机故障
总共涉及9397台交换机
2020年
微软团队再次出手
更新交换机故障数据
将DUT交换机数量覆盖到
130个数据中心的180,000+台设备
如此
大规模的数据采集
最终得到了非常详尽
同时也令人意外的结论
- 32%的交换机故障源于硬件故障,27%源于意外停电。这是数据中心交换机故障的两个主要原因,大多数故障交换机在不到6分钟内就能恢复。
- 数据中心的交换机在生产部署后,3个月内发生故障的可能性为2%;
三家主要交换机供应商提供的设备在“三个月存活期”方面有很大差异,其中一个供应商的故障可能性是其他供应商的两倍;
- 17%的交换机故障是由于供应商交换机操作系统中的软件Bug造成的。为了减轻其影响,云供应商设计开发了SONiC交换机操作系统。我们发现,使用相同的物理硬件,SONiC交换机与供应商私有操作系统交换机相比,SONiC交换机具有更高的“生存可能性”。而且,随着时间拉长这种差异更加明显。3个月后,SONiC交换机的存活率比供应商交换机的存活率高1%,这突出证明了SONiC在数据中心的功效。
仔细对比交换机故障
在微软网络两个时代的差异
非SONiC时代 Vs. 拥抱SONiC时代
只要给我一个SONiC交换机我就能撬动地球