下午好,我的网工朋友。

广东电信那事儿,大家都听说了吧,这闹的,行业内无人不晓了吧。

昨天晚上有聚餐,没来得及跟你们唠上这事儿,这会儿下班前,唠唠?

虽然昨晚已经恢复正常,但这事儿,还没完呢。

今日文章阅读福利:《思科技术资源合辑》

想要知道到底是不是和思科有关系?你总得先学好思科基础技术吧。

像cisco路由器配置(实战篇)、思科防火墙白皮书、思科CCNA题库(精选328页)、 大神网络学习笔记(思科版)……全都是相关资料。

私信我,发送暗号“思科”,获取资源,一起学技术。

01 广东电信0608故障事件回顾

故障主题:

关于广东IMS互联互通关口局IBCF到广东电信IBCF接通率下降通报

故障发生时间:

2023-6-8 14:15

故障发生地点:

广东

故障上报级别:

报集团总部

专业:

展开全文

核心网

故障描述:

网络监控发现广东固网IBCF网元到广东电信IBCF出局接通率出现大幅下降的情况,且持续时间超过10分钟,由正常情况下90%接通率左右下降至9%;联系电信反馈电信其网络出现故障。

故障影响范围:

影响联通volte手机用户、IMS固话外呼广东电信手机号码不通,拨打广东电信固话正常。

02 电信重大故障,这波官方怎么说?

目前为止,你能看到的电信那边的官方回应,基本上就是这些,没有更多了。

故障原因是什么?官方并没有给出说法。

一般情况下,这种事情不可能这么快就给你通报明白。

通常要经过7天左右的多方研判,各方签字画押明确责任后才能公布。

那为什么说这事儿还没完,因为昨晚深夜,广东省通信管理局,出动了。

按照电信部门规范性文件,固定电话或移动电话通信阻断超过10万户*小时,就属于重大事故。

全省几个小时打不了电话,这事,没办法就这么过去了。

现在是官方下场的状态,要求广东电信查明网络中断原因。

03 电信故障原因猜测有哪些网传版本?

昨天广东电信这波就是重大事故,毫无疑问,不过具体故障的原因,目前还没有个定论。

但是网友们众说纷纭,目前有几个网传版本,咱们一起来吃吃瓜:

网传版本1 或为思科设备出现异常,导致数据包重传?

最多人热议的就是这个原因了吧。

猜测的原因是这么说的:

LDA到HDA之间链路拥塞,链路拥塞原因可能为思科数通设备出现异常,导致数据包重传,引起信令风暴。

广东电信两套HDRA(华为和中兴各1套)和两套LDRA(华为2套)之间存在消息拥塞,重传;

重传的承载设备为思科路由器;

在SBC部署流控流程及思科路由器隔离。

这话一出就分为两大派了啊。

支持思科的兄弟,站队了一波:

跟着结论拉踩思科的兄弟,也站队了一波:

只能说,这还只是个猜测,毕竟目前从通报来看,疑点还很多啊,看看一位理智的大兄弟发言:

为啥重要省出口就只有一对?

正常省出问题,应该是广东省不能往外出而已,不应该本省城市互打会有影响,而且每个地市也是有一套分系统这种省级核心网应该有灾备,主备,灾备机房全堵塞了?

还有关键一点,别人反馈了才知道出了故障,网络监控中心的人干嘛去了?

再说了应该是有网元监控系统,故障没上送吗?

SBC服务器,像这种单位不可能就1台或者2、3台,肯定有庞大的服务器集群,为何故障没及时上送监控中心?

怎么说,你站哪队?

网传版本2 或为网络攻击、黑客入侵?

这个猜测主要有两个部分。

一个是说,如果出问题的真是某路由器,无论是爱立信还是诺基亚,都完全有可能。

结合图中内容,或是其他国家联合爱立信发起的网络攻击?

这个发言,让人有点摸不着头脑,高深了。

还有就是说,可能是黑客的入侵,利用漏洞或后门,影响了电信网络的中断。

网传版本3 或是一场应急测试实战演练?

还有兄弟说,可能某几个部门在不通知下属省市及电信的情况下,进行内部应急测试,做实战演练。

这个猜想,个人感觉有点扯。

虽然说,万一有啥国家大事,广东省很有可能受到各类型攻击,但是无预警演练来搞应急预案,实战预案,真的有必要吗?

你怎么评价。

网传版本4 或是人为因素导致的事故?

还有一些朋友表示,人为故障的可能性非常大。

因为硬件bug的应急预案有很多,另外双活,甚至三活是大型网络设施的标配。

如果是简单的某一台机器故障,直接拔掉电源就能恢复,因为所有的大型网络基础设施在设计方案时都以设备会突然损坏为前提进行设计。

这个问题猜测,基本上是因为运营商员工进行了错误的管理、配置和操控,导致了事故的发生。

四个网传版本,你偏向哪个?

还是建议大家可以蹲一波官方通告的具体事件原因。

04 其实全球范围内,这种电信网络事故并不罕见

其实在全球范围内,这种电信网络的重大事故并不罕见。

例如自2018年以来,日本四大运营商相继发生重大事故,无一幸免。

先是软银发生了事故,导致约3,000万移动用户断网,接着NTT进行了割接操作,割接失败导致大量用户再次断网。

然后去年7月,KDDI进行了骨干路由器的更换,这次更换操作失败,导致整个网络出现故障,持续了超过60个小时。

后面两个月,乐天也遭遇了网络崩溃的情况。

今年年初,韩国第三大移动运营商LG U总共遭受了五次部分网络中断。离谱吧。

国内的断网也不少,21年中国电信甘肃省的部分用户网络通讯中断。

21年4月,湖南全省也是,网络通讯故障。

还有去年9月,长沙电信大厦火灾,部分网络通讯受影响。

但总得来说,中国三大运营商出现重大故障的次数还是少的。

一般来说,这种重大故障一般就两大原因:

一是设备事故,二是运营事故。

电信运营商需要采购华为、中兴、思科等很多设备制造厂商的设备。

如果故障是由这些设备出现问题导致的,那么设备制造商应该承担主要责任。

如果设备本身没问题,而是由于运营商员工在管理、配置和操作方面出现错误,导致故障发生,那么责任则主要由运营商承担。

去年7月发生的日本KDDI网络中断事故是一个典型的运营事故案例。

在进行核心路由器割接时,运营商没有设置必要的热备份措施。

这导致旧路由器被切断后,新路由器无法正常工作,网络遭受了严重中断。

这就好比是做心脏移植手术时,没有搞体外循环,而是硬生生的割了旧心脏,把新心脏接上后发现不跳,这个错误令人难以想象。

一旦发现问题,系统被迫进行回退操作。

但回退后的系统状态与事故发生时的新数据变化不匹配,导致路由参数混乱。

最终,这场事故导致了3,915万用户断网长达60个小时的严重后果。

各位可以关注一下,未来一周,广东电信肯定会汇集相关厂家研讨事故原因,固定证据,明确事故责任,形成法律文书。

说不定还可能会开个发布会,讲下这三项内容:

一是事故原因。

重点就看是设备故障还是运营故障了。

如果是设备故障,按惯例也是不会点名的,毕竟都是国际大厂,还得长期合作,不能公开打脸。

二是相关人员处分。

即使是设备故障,广东电信相关人员也有着不可推卸的责任,以前花巨资建设的灾备方案为什么没有起效?

三是赔偿方案。

断网期间用户预交的费用,怎么搞,有没有赔付?虽然这不是有意伤害,但是最好还是得有个说法吧。

总得来说,这次事件,在中国电信业运营史上,是非常罕见的。

说明了企业在工作成绩报告中所提到的各种热备份冷切换等灾备措施,在关键时候未必能用得上。

这事儿啊,各企业都应该深刻自查下,引以为戒。

你觉得真相是什么?

原创:老杨丨10年资深网络工程师,更多网工提升干货,请关注公众号:网络工程师俱乐部