通信人家园
标题: KDDI网络事故处理报告 [查看完整版帖子] [打印本页]
时间: 2022-7-4 22:02
作者: NE90E
标题: KDDI网络事故处理报告
本帖最后由 关东黑土豆 于 2022-7-5 07:53 编辑
当地时间7月2日凌晨1点35分开始,日本运营商KDDI的移动网络发生大规模通信故障,导致全日本范围内无法拨打电话、无法收发短信、数据通信变慢。
此次事故影响范围大,持续时间长,影响用户数量达3915万,故障一直持续到7月4日下午才基本完全恢复,给日本全社会造成了极大的不便和损失,也是KDDI有史以来遭遇的最大一次网络系统故障。
故障发生后,KDDI高层及时召开新闻发布会,向广大深受影响的个人和企业用户鞠躬致歉,并表示考虑赔偿损失。
那究竟是什么原因造成了此次大规模通信故障?看完KDDI的报告后,发人深省。
故障原因一:
核心路由器割接失败
7月2日凌晨,KDDI组织工程师对连接全国移动核心网和中继网络的一个核心路由器进行割接,将老旧的核心路由器更换为新产品。
不幸的是,通信人最担心的噩梦发生了——割接失败了。在更换核心路由器的过程中,新的核心路由器出现了不明原因的故障。
搞通信的伙伴们都知道,核心路由器位于网络核心位置,是整个网络的“交通枢纽”,不仅性能强悍、价格昂贵,且需时时刻刻保持稳定运行,否则,一旦出现问题,动辄可能影响全网数百万甚至数千万用户。
正因如此,核心路由器割接好比为活人换“心脏”,是一项极具挑战的工作,也对要更换的新产品的成熟性、稳定性、互联互通性等能力要求极高。
但KDDI偏偏在这项要求极其谨慎的工作上掉了链子,接下来的后果当然就相当严重了——
由于新核心路由器无法将语音流量正确路由到VoLTE交换节点,直接导致部分VoLTE语音业务中断15分钟。
故障原因二:
信令风暴击溃VoLTE网络
核心路由器割接失败,这场景简直不敢想象,隔着屏幕都能吓出冷汗!
怎么办?赶紧回退呗。KDDI的工程师们快速启动了回退操作,于7月2日凌晨1点50分将连接重新切换回旧的核心路由器。
但更大的问题发生了。
回退后,“由于VoLTE终端每50分钟进行一次位置注册”,大量终端向VoLTE交换节点发起位置注册信令,以重新连接至网络。海量信令集中突发,很快引发VoLTE交换节点拥塞,致使大量用户无法进行VoLTE通信。
同时,移动网络中有一个“用户数据库”,负责存储用户的签约数据和位置信息,由于VoLTE交换节点拥塞,“注册在用户数据库的位置信息无法反映在VoLTE交换机上”,出现数据不匹配问题,也导致很多用户无法通信和拨打电话。
针对此情况,KDDI于7月2日凌晨3:00后开始从无线侧、VoLTE核心网侧同时实施流量控制策略,以及通过断开PGW的方式减轻用户数据库负荷,以缓解网络拥塞,并在PGW采用“会话重置”措施解决用户数据库中的数据不一致问题。
因为实施流量控制,接下来导致了全国范围内的数据通信和语音通话难以连接。
接下来,KDDI开始紧张的网络恢复工作。7月3日上午11点,KDDI宣布日本西部基本完成网络修复工作。下午5点30分,日本东部基本完成。但仍然有一些用户难以进行数据通信和语音通话。
直到7月4日下午4点,距离故障发生62个小时后,KDDI表示已在全国范围内基本恢复。
发人深省
类似的重大网络故障在日本并不是头一次。
2021年10月14日,日本另一家运营商NTT DoCoMo的移动网络也发生过全国性的重大通信事故,导致大量手机用户无法进行通话和数据通信。
此次事故同样因为割接失败后回退操作,引发信令流量大爆发,导致网络大拥塞。
具体情况是,NTT DoCoMo在替换用于存储物联网终端设备的用户和位置信息的网络设备时出现了问题,然后立即启动回退操作,重新倒回到旧设备。
但这一回退操作,引发了大量物联网终端向旧设备重新发起位置注册信息,汹涌而来的“信令风暴”快速引发了网络拥塞,并波及3G/4G/5G网络的语音和数据分组核心设备,导致大量用户无法通话和数据通信。
与NTT DoCoMo不同的是,KDDI此次是因为核心路由器割接失败引起,而且故障持续时间要长很多。
但值得一提的是,KDDI似乎并非没有吸取DoCoMo的教训。
KDDI在全日本范围内拥有6个交换中心,共18个VoLTE交换节点,且交换中心内的VoLTE交换节点是相互冗余备份的。而本次因核心路由器割接导致VoLTE业务中断的只是其中一个交换中心的VoLTE交换节点。
“我们做过压力测试,因为有冗余备份,即使一个交换中心范围内的所有终端同时发起重新连接请求,也不会发生拥塞。”
KDDI表示,“但不知道什么原因,结果还是发生了拥塞,我们还没有完全搞清楚到底是哪里出了问题。”
但愿KDDI最终能彻底找出此次事故的所有原因。也希望通信业再也不要重蹈覆辙。因为,重大网络故障,这六个大字,对于通信业而言,实在太可怕了。
附件: 640?wx_fmt=jpeg (2022-7-5 07:52, 75.39 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NTM1ODA3fGMzMWNhNDIzfDE3NTQzNDg5ODh8MHww
附件: 640?wx_fmt=jpeg (2022-7-5 07:52, 75.79 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NTM1ODA4fDNiMjc0NmNlfDE3NTQzNDg5ODh8MHww
附件: 640?wx_fmt=jpeg (2022-7-5 07:52, 81.38 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NTM1ODA5fDRiNTlmNGQ1fDE3NTQzNDg5ODh8MHww
附件: 640?wx_fmt=jpeg (2022-7-5 07:52, 105.41 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NTM1ODEwfDU0YmE2MThkfDE3NTQzNDg5ODh8MHww
时间: 2022-7-4 22:42
作者: 马云的云
通信界太落后,互联网界就不会发生,为啥?
因为互联网界经常搞秒杀。秒杀大家都知道,瞬间大流量冲击,流量密度是平时的100~1000倍。
如果一个系统,能扛的住秒杀的瞬间大流量冲击,那平时发生点流量冲击,根本就不叫事儿了。
互联网界通过人为制造流量洪峰,检验了系统的稳定性。
时间: 2022-7-5 07:07
作者: lusty
KDDI竟然要赔偿用户,万恶的日帝!
时间: 2022-7-5 09:06
作者: mr8431
太脆了。
时间: 2022-7-5 09:17
作者: ets88
马云的云 发表于 2022-7-4 22:42 
通信界太落后,互联网界就不会发生,为啥?
因为互联网界经常搞秒杀。秒杀大家都知道,瞬间大流量冲击, ...
因为互联网是寄生在通信网上的
时间: 2022-7-5 09:20
作者: allen20031
所以新设备是哪家的?
时间: 2022-7-5 09:44
作者: yein
lusty 发表于 2022-7-5 07:07
KDDI竟然要赔偿用户,万恶的日帝!
别这样说,kddi在日本是老二,如果电信出现此类故障,别说全国,哪怕就整个上海,工信部罚得塔妈都不认得,而且电信也会赔偿用户。加之电信领导仕途到头了。
时间: 2022-7-5 09:59
作者: damocles931
ets88 发表于 2022-7-5 09:17 
因为互联网是寄生在通信网上的
有没有一种可能,寄生的因为过于强大,加上本体不思进取大话连篇,早已可以并合本体,但被某种神秘力量阻止了?
时间: 2022-7-5 10:19
作者: 马云的云
ets88 发表于 2022-7-5 09:17 
因为互联网是寄生在通信网上的
VoLTE不也是寄生在底层通信网上的?VoLTE就是运营商版的简化微信。
时间: 2022-7-5 10:24
作者: 老周部落
damocles931 发表于 2022-7-5 09:59 
有没有一种可能,寄生的因为过于强大,加上本体不思进取大话连篇,早已可以并合本体,但被某种神秘力量阻 ...
美国 Google 公司的 Google Fiber 做的也一般吧。
而且互联网也看不上运营商这种重资产+低收益行业,唯一想搞的也就是自建骨干网和运营商平等 Peering 互不结算。
时间: 2022-7-5 10:26
作者: 马云的云
老周部落 发表于 2022-7-5 10:24 
美国 Google 公司的 Google Fiber 做的也一般吧。
而且互联网也看不上运营商这种重资产+低收益行业,唯一 ...
美国挖沟架杆太费劲,所以Fiber不好铺,这不是谷歌一家能解决的,所以mmWave的5G被当成WTTH用。
时间: 2022-7-5 10:27
作者: 马云的云
老周部落 发表于 2022-7-5 10:24 
美国 Google 公司的 Google Fiber 做的也一般吧。
而且互联网也看不上运营商这种重资产+低收益行业,唯一 ...
美国挖沟架杆太费劲,所以Fiber不好铺,这不是Google一家能解决的,所以mmWave的5G被当成WTTH用。
时间: 2022-7-5 10:27
作者: 马云的云
老周部落 发表于 2022-7-5 10:24 
美国 Google 公司的 Google Fiber 做的也一般吧。
而且互联网也看不上运营商这种重资产+低收益行业,唯一 ...
美国挖(敏感)沟架杆太费劲,所以Fiber不好铺,这不是Google一家能解决的,所以mmWave的5G被当成WTTH用。
时间: 2022-7-5 10:27
作者: 马云的云
老周部落 发表于 2022-7-5 10:24 
美国 Google 公司的 Google Fiber 做的也一般吧。
而且互联网也看不上运营商这种重资产+低收益行业,唯一 ...
美国挖沟架杆太费劲,所以Fiber不好铺,这不是Google一家能解决的。
时间: 2022-7-5 10:28
作者: 马云的云
老周部落 发表于 2022-7-5 10:24 
美国 Google 公司的 Google Fiber 做的也一般吧。
而且互联网也看不上运营商这种重资产+低收益行业,唯一 ...
所以美国毫米波5G被当成WTTH用。
时间: 2022-7-5 10:30
作者: 穿江大板
我只想知道倭国那边是怎么个管理模式,会不会对技术部门或相关技术人员进行处罚。如果有,怎么个处罚法?
时间: 2022-7-5 10:33
作者: 老周部落
马云的云 发表于 2022-7-5 10:26 
美国挖沟架杆太费劲,所以Fiber不好铺,这不是谷歌一家能解决的,所以mmWave的5G被当成WTTH用。
国内能解决各种奇葩物业的也是神人啊,更别说现在有些市区的管井资源只租不允许自建之类的事情了。
所以我觉得互联网专注自己的高收益业务,烂摊子交给运营商处理算了。
时间: 2022-7-5 10:34
作者: 马云的云
老周部落 发表于 2022-7-5 10:33 
国内能解决各种奇葩物业的也是神人啊,更别说现在有些市区的管井资源只租不允许自建之类的事情了。
所以 ...
是的,谷歌搞Fiber的时候,运营商还都是xDSL呢,当运营商也搞Fiber的时候,谷歌就不搞了,没必要跟运营商竞争。
时间: 2022-7-5 10:35
作者: j7889
时间: 2022-7-5 11:18
作者: yuanfengding
通信网络越来越脆弱了。今后还会发生更大的事故,过于集中带来的隐患的一次爆发
时间: 2022-7-5 11:19
作者: yuanfengding
我们的运营商也需要从这次事故学习反思
时间: 2022-7-5 11:41
作者: Yan-YY
其实,还是运营商对自己的网络核心技术并不掌握,对设备厂家依赖度过高导致的,确实值得运营商反思。
时间: 2022-7-5 12:57
作者: NE90E
我就好奇新的CR是哪家的H? Z?N?C?
时间: 2022-7-5 15:26
作者: bfworld
现在的网络架构和以前不一样了。 更加集中,更加扁平化,核心架构也比以前更加复杂。 由此带来的问题也相当明显,就是一旦发生故障,影响范围非常大。 实际上对维护人员的要求要高得多了。 国外没关注过不清楚。 国内现在运营商的大环境都是挣快钱捞业绩, 技术力量确实拿不上台面。 不光是运营商自身受影响,整个技术链条包括厂家都受影响。 举个简单的例子,2000年左右, 一个五线地级市每年传输、交换、数据外派送陪起码超过20人, 每个人的平均培训费用10W。 连区县维护人员每年都有送培的机会。 20年后,别说区县,市公司送培几乎都是0. 厂家收益少了,技术支撑水平也下降严重,大都搞三方代维了。 说白了,整个技术链已经不像20年前那么重视,投入也不是一个档次。 虽然运营商内部人人都知道有这个问题, 但是谁都无法改变。
上台前高唱不搞全员营销的领导,一上台搞得比谁都欢。 毕竟省公司开会还得业绩说话啊,总是末尾脸上无光还影响升迁。
时间: 2022-7-5 16:51
作者: Colombia.2005
马云的云 发表于 2022-7-5 10:27 
美国挖沟架杆太费劲,所以Fiber不好铺,这不是Google一家能解决的,所以mmWave的5G被当成WTTH用。
不仅是挖沟不容易,接线跳线都太烦了,而且这些事情不太容易搞成自动化,所以GOOGLE fiber失败了。
时间: 2022-7-5 16:54
作者: Colombia.2005
bfworld 发表于 2022-7-5 15:26 
现在的网络架构和以前不一样了。 更加集中,更加扁平化,核心架构也比以前更加复杂。 由此带来的问题也相当 ...
也不完全是这样,因为核心网全部收缩到省里面去了,县区市的核心网都少了,所以根本不需要这么多的高水平的维护人员, 在区县市这一级的推护人员,往往就是换一些设备,或是RESET一下, 所以送培就少了。实际上在中心城市的维护水平比以前高多了。
时间: 2022-7-6 08:49
作者: bfworld
Colombia.2005 发表于 2022-7-5 16:54 
也不完全是这样,因为核心网全部收缩到省里面去了,县区市的核心网都少了,所以根本不需要这么多的高水平 ...
不需要吗? 传输网也没有培训了怎么说? 地市只是换换设备,重启一下这种想法是当前领导的通病。 不止维护没有效率,给用户的感觉也很不专业。 现网搞网管的人,我敢说35岁以下的人可能连设备都没摸过几次。
时间: 2022-7-6 08:56
作者: termite2013
穿江大板 发表于 2022-7-5 10:30 
我只想知道倭国那边是怎么个管理模式,会不会对技术部门或相关技术人员进行处罚。如果有,怎么个处罚法?
土下座
时间: 2022-7-6 09:46
作者: 马云的云
bfworld 发表于 2022-7-6 08:49 
不需要吗? 传输网也没有培训了怎么说? 地市只是换换设备,重启一下这种想法是当前领导的通病。 不止维 ...
哈哈哈,你以为设备商的人来了会咋样?也是让你先重启一下。
时间: 2022-7-6 12:38
作者: 客家人
某司也出过大故障,不是把广西某运营商HSS 主备用硬盘格式化了,数据全丢了
时间: 2022-7-6 14:50
作者: bfworld
本帖最后由 bfworld 于 2022-7-6 14:51 编辑
马云的云 发表于 2022-7-6 09:46 
哈哈哈,你以为设备商的人来了会咋样?也是让你先重启一下。
一点也不好笑。 重启也是一种手段, 但决不是地市就只换换设备重启一下这么简单。 现在区县外包就是不懂专业,处理故障沟通忒TM费劲。懂的人配合,五分钟能搞定的故障,现在能搞几个小时都有可能。
时间: 2022-7-6 18:03
作者: 穿江大板
termite2013 发表于 2022-7-6 08:56
土下座
有没有什么经济惩罚,比如扣当月绩效只发16000日元生活费什么的?
时间: 2022-7-6 18:40
作者: 老周部落
bfworld 发表于 2022-7-6 14:50
一点也不好笑。 重启也是一种手段, 但决不是地市就只换换设备重启一下这么简单。 现在区县外包就是不 ...
这不是技术问题而是考核体系问题,解决不了问题就考核外包公司,一个故障单一一小时清不掉就扣100,完了指数往上翻。八个小时解决不了,就扣21700,你看这故障单肯定很快就处理了。
时间: 2022-7-7 08:41
作者: termite2013
穿江大板 发表于 2022-7-6 18:03 
有没有什么经济惩罚,比如扣当月绩效只发16000日元生活费什么的?
不至于。可能当年绩效会差一点,加薪冻结甚至负增长都是有可能的
时间: 2022-7-7 16:58
作者: NE90E
老周部落 发表于 2022-07-06 18:40:45
这不是技术问题而是考核体系问题,解决不了问题就考核外包公司,一个故障单一一小时清不掉就扣100,完了...
人家不伺候了
时间: 2022-7-8 10:08
作者: ets88
damocles931 发表于 2022-7-5 09:59 
有没有一种可能,寄生的因为过于强大,加上本体不思进取大话连篇,早已可以并合本体,但被某种神秘力量阻 ...
告诉你吧,这种“神秘力量”就是互联网本身,因为他们看不上通信行业的“重资产”模式。看看Google Fiber ,半死不活的!
通信人家园 (https://www.txrjy.com/) |
Powered by C114 |