您现在的位置是：首页 > 其他

当前栏目

割接时路由配置错误，导致全网瘫痪

网络

2023-04-18 12:34:25 时间

当地时间2021年10月25日11点20分开始，韩国运营商KT的整个有线和无线互联网服务在全国范围内发生中断，导致其所有客户在大约一个小时内无法连接互联网和使用电话服务。

同时，因KT整网服务中断，还并发导致了韩国另外两家运营商SKT和LG U+的网络拥塞。

可以说，在这一个小时内，韩国通信界遭遇了“至暗时刻”。

10月26日，KT官网以CEO的名义发布了公开致歉信，并对事故原因进行了确认。

信中表示，对于引起这起重大网络事故的原因，最初估计是因外部DDoS攻击导致，但最终确认原因为：在更换路由器以升级网络的时候，因网络路由设置错误导致。

路由设置错误，可能会导致数据流量流向不正确而引起局部节点负荷过载，从而引发全网瘫痪。

看起来，与前几天日本软银遭遇的网络重大故障相似，本次事故也是因割接导致。

尽管KT已公布故障原因，但并未进行详细解释，仍然给业界留下了不少谜团...

1. 为何没有自愈保护?

电信网络一直以高稳定性、高可靠性著称，早在PSTN电话网络时代，网络线路就设置了1+1保护或自愈保护，主用线路在发生中断后，通常可在50ms内自动切换到备用线路，或从相反方向迂回连通。

2018年11月，因KT位于首尔Ahyeon区中心的电信大楼发生火灾，导致该地区网络瘫痪，通信服务中断了数天。事后，有韩国业内人士质疑，这可能是因为KT的网络拓扑设计不够先进，设备和线路的冗余配置和自愈保护不够完善导致。他认为，尽管KT的骨干汇聚网络拥有充分的冗余配置和自愈保护机制，但在昂贵而庞大的接入网部分，冗余配置不够充足，环状自愈保护设计不够完善，从而导致了此次火灾后网络长时间中断。

但本次事故比2018年的火灾事故要严重得多，火灾事故影响范围为一个区域，而本次事故影响范围为全国。既然影响范围这么广，可以估计，本次事故的故障点并非在网络接入层，而是在网络骨干核心部分，这就好比“主动脉”阻塞，导致全网的“血液”输送不畅。

那问题是，难道KT的核心网络也缺乏完善的自愈保护机制?这显然是不太可能的。那是不是还有其他原因?

2. 是否因为BGP路由配置错误导致?

BGP路由错误会阻止数据包到达其预期的IP 地址和服务器而导致服务中断。联想到最近 Facebook、Instagram和WhatsApp服务中断均由BGP路由问题导致，一些业内人士推测可能是由于BGP配置错误导致。

3. 为什么割接操作在白天进行?

为避免影响网络业务，割接操作一般都在凌晨进行，这是电信业的常识。但本次事故因“更换路由器以升级网络”引起，且事故发生时间为白天。难道有什么不得已的原因非要在白天11点进行割接操作?还是因为凌晨割接操作后，白天才发生了故障?

4. 是设备问题还是人工操作失误?

路由配置可能是自动化的，也可能是人工操作，那到底是设备的问题，还是人工操作失误?

不管是设备问题，还是人为操作失误，还是缺乏备份系统，一些韩国业内人士表示，这都反映了KT在网络和流程管理上存在疏忽。

猜你喜欢

Jease 2.6发布 Java开源内容框架
EasyCVR对接华为iVS订阅摄像机和用户变更请求接口介绍
JVM调优总结：反思
【技术种草】cdn+轻量服务器+hugo=让博客“云原生”一下
JVM调优总结：调优方法
前端面试【JavaScript】— typeof 是否能正确判断类型？
JVM调优总结：新一代的垃圾回收算法
前端面试【JavaScript】— instanceof 能否判断基本数据类型？
JVM调优总结：典型配置举例
前端面试【JavaScript】— 能不能手动实现一下 instanceof 的功能？
前端面试【JavaScript】— Object.is和=== 有什么区别？
JVM调优总结：分代垃圾回收详述
前端面试【JavaScript】— JS中类型转换有哪几种？
WPF开发入门尝试
前端面试【JavaScript】— == 和 ===有什么区别？
一个Java程序员对2011年的回顾
前端面试【JavaScript】— 对象转原始类型是根据什么流程运行的？
JVM调优总结：垃圾回收面临的问题
直接在代码里面对list集合进行分页
JVM调优总结：基本垃圾回收算法

zl程序教程