zl程序教程

您现在的位置是:首页 >  IT要闻

当前栏目

研究了180,000+台交换机,微软得出一个出人意料的结论!

2023-03-07 09:12:56 时间

网络设备在

数据中心的采购份额不大

但是需要背锅时总少不了网络

据微软在

2015-2017年的统计

云数据中心网络故障的三大苦主

分别是软件bug、硬件故障和配置问题

独家揭秘微软公有云网络运维利器ONE

此后AI插手运维

Linkedin可编程数据中心

基于机器学习检测光模块的缺陷

Linkedin基于ML的自愈网络运维了解下

百度也

基于系统日志

预测交换机故障

总共涉及9397台交换机

百度原来是靠黑科技运维白盒网络

2020年

微软团队再次出手

更新交换机故障数据

将DUT交换机数量覆盖到

130个数据中心的180,000+台设备

如此

大规模的数据采集

最终得到了非常详尽

同时也令人意外的结论

- 32%的交换机故障源于硬件故障,27%源于意外停电。这是数据中心交换机故障的两个主要原因,大多数故障交换机在不到6分钟内就能恢复。

- 数据中心的交换机在生产部署后,3个月内发生故障的可能性为2%;

三家主要交换机供应商提供的设备在“三个月存活期”方面有很大差异,其中一个供应商的故障可能性是其他供应商的两倍;

- 17%的交换机故障是由于供应商交换机操作系统中的软件Bug造成的。为了减轻其影响,云供应商设计开发了SONiC交换机操作系统。我们发现,使用相同的物理硬件,SONiC交换机与供应商私有操作系统交换机相比,SONiC交换机具有更高的“生存可能性”。而且,随着时间拉长这种差异更加明显。3个月后,SONiC交换机的存活率比供应商交换机的存活率高1%,这突出证明了SONiC在数据中心的功效。

仔细对比交换机故障

在微软网络两个时代的差异

非SONiC时代 Vs. 拥抱SONiC时代

只要给我一个SONiC交换机我就能撬动地球