通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  上校

注册:2016-9-11293
跳转到指定楼层
1#
发表于 2018-12-28 12:49:37 |只看该作者 |倒序浏览

2018年12月6日,对于日本运营商软银,简直是噩梦般的一天。


下午13点39分,软银东日本和西日本两大中心机房的18台4G核心网网元突发故障,造成全网大量用户无法正常通信。


软银被这突如其来的大故障惊呆了,从CTO到工程师,上上下下忙成一团,整整花了近两个小时才定位出故障原因,直到下午18点04分才恢复故障。


本次故障历时4小时25分,共计造成约3060万软银用户无法正常通信,是日本通信史上一次罕见的重大通信事故。


事故发生后,软银高层向用户公开道歉,并承诺以后将加强设备备份管理,严防事故再次发生。




由于故障发生在白天,影响范围广,对软银造成了极大的负面影响,股票大跌,5天内超过1万户用户解约。


估计连日本总务省也惊呆了,直到20天后,也就是今天,才官方公布确认“收到软银提交的严重事故报告”。


以下内容来自软银的故障报告…


概要




发生时间:

2018年12月6日 13:39至18:04(4小时25分钟)


影响内容:

4G LTE移动电话无法进行语音通话和数据通信。

部分LTE 固话和家庭Wi-Fi无法正常使用

由于4G网络故障,导致3G网络拥塞


影响范围:

全国(约3060万线用户)


故障原因:

4G核心网设备(MME)软件缺陷导致。



故障原因分析


故障具体原因为核心网网元MME(移动管理实体),即4G分组交换设备的数字证书(TSL证书)过期导致。


TLS(Transport Layer Security,传输层安全)是为网络通信提供安全及数据完整性的一种安全协议。


软银解释到,他们在东日本和西日本两大中心机房合计部署了18台分组交换设备,这些设备都是按照远期需求配置,有足够的负荷冗余量,目前仅使用了30%-40%的负荷。




同时,18台设备相互备份,且均为池化部署,这意味着即使任何一台甚至多台设备发生故障都不会影响服务正常提供。


但是,数字证书过期这种事就不一样了。


TSL数字证书过期,意味着系统无法识别那些连接分组交换设备的其他设备是否合法,此时,系统检测到异常,根据软银现网设置,会采用重启的方式来试图恢复。


不过,数字证书过期这种事,即使重启N次,也是无法恢复的,因此,就发生了不断重启的死循环,从而导致了这次重大故障。




此外,由于4G网络服务中断,导致大量用户转移到3G网络,这也造成3G网络严重拥塞。





数字证书过期了

为什么没有及早发现?


软银解释到,该分组交换设备的数字证书不同于其他网络设备。




通常,对于其他网络设备,我们在购买设备后,是可以自行确认数字证书到期时间的。


但分组交换设备的数字证书是通过嵌入式软件固化在相应硬件里的,作为运营商,我们无法确认到期时间。





解决措施


临时解决措施


本次故障是由2018年4月升级的Ver.1.14版本引起,而之前的Ver.1.08版本没有问题,因此,临时解决措施是从Ver.1.14版本回滚到Ver.1.08版本,但这会导致一些4G物联网功能无法使用。




中期解决措施


1)全网普查所有设备的相关证书是否到期,包括全网基站设备。

2)制定更加严格的新设备和新软件版本入网测试规范。

3)要求在设备升级后一年内,保留旧版本软件,以在新版软件出现类似问题后,快速回滚到旧版本。




永久性措施


1)要求以后所有购买的网络设备和软件,运营商均可自行检查数字证书是否到期。




2)更改系统异常检测和应急机制,当系统检测到网络异常时,不再只是重启恢复,而是设置异常告警级别,根据门限判定是重启还是继续运行。




3)由于引起本次重大事故的原因之一是由于所有设备都来自同一家供应商,因此,要求在2019年6月30日之前引入多家设备供应商,以分散风险。




看完软银的故障报告,感觉是字里行间透露出一万个“万万没想到”,尽管各种备份容灾都做到位了,但意外还是发生了。真是网络安全无小事,运维责任重如山,令人警醒。


举报本楼

军衔等级:

  一级通信军士

注册:2008-1-106
2#
发表于 2018-12-28 13:31:02 |只看该作者
想知道是哪家的核心网设备

点评

huyikong  爱立信  详情 回复 发表于 2018-12-28 14:21

举报本楼

军衔等级:

  大元帅

注册:2011-11-252104
3#
发表于 2018-12-28 13:38:01 |只看该作者
防不胜防啊

举报本楼

军衔等级:

  中士

注册:2012-2-226
4#
发表于 2018-12-28 14:02:40 |只看该作者
某省的某重要网络设备,曾经出过大规模业务故障,原因是一批用户受理时填写的业务期限是10年,大约当时感觉10年很久远吧,结果网络设备在某个时间就把这些用户的业务中断了。多亏领导比较明白,没有让维护人员背锅。

点评

ziyanji2007  也听说过这件事,这是通信业发展过程中会正常出现的一种状况,和软银这次的断网事件还是有很大区别的。 我预计软银会找爱立信索赔。把IPO都坑惨了  详情 回复 发表于 2018-12-28 15:11

举报本楼

军衔等级:

  中士

注册:2018-4-11103
5#
发表于 2018-12-28 14:21:47 来自手机 |只看该作者
mahoundhx 发表于 2018-12-28 13:31
想知道是哪家的核心网设备

爱立信

点评

49679711  赞  详情 回复 发表于 2019-1-2 11:20
phs424  这次不是爱立信和诺西捣鬼,让日本不采购华为的设备么?有好戏看了  详情 回复 发表于 2018-12-28 17:03

举报本楼

军衔等级:

  少将

注册:2006-2-1319
6#
发表于 2018-12-28 14:42:05 |只看该作者
这种事情都有,奇葩了

举报本楼

军衔等级:

  大将

注册:2009-1-181640
7#
发表于 2018-12-28 15:11:47 |只看该作者
老兵新看 发表于 2018-12-28 14:02
某省的某重要网络设备,曾经出过大规模业务故障,原因是一批用户受理时填写的业务期限是10年,大约当时感觉 ...

也听说过这件事,这是通信业发展过程中会正常出现的一种状况,和软银这次的断网事件还是有很大区别的。
我预计软银会找爱立信索赔。把IPO都坑惨了

举报本楼

军衔等级:

  四级军士长

注册:2016-11-2410
8#
发表于 2018-12-28 15:26:19 来自手机 |只看该作者
老兵新看 发表于 2018-12-28 14:02:40 某省的某重要网络设备,曾经出过大规模业务故障,原因是一批用户受理时填写的业务期限是10年,大约当时感...

最后赔了几个亿那次?

点评

cookil  哪家?  详情 回复 发表于 2018-12-29 13:21

举报本楼

军衔等级:

  中士

注册:2014-11-5
9#
发表于 2018-12-28 17:03:07 |只看该作者
huyikong 发表于 2018-12-28 14:21
爱立信

这次不是爱立信和诺西捣鬼,让日本不采购华为的设备么?有好戏看了

举报本楼

军衔等级:

  下士

注册:2018-4-182
10#
发表于 2018-12-28 17:05:49 来自手机 |只看该作者
报告日本企业泛,以前时不时也会弄这种问题报告。设备商也是疏忽,问题突发让运营商一时摸不着头脑,看来万无一失是不可能的,就看影响范围,现在都云化,哪天意外大范围故障,社会都要停摆。

举报本楼

军衔等级:

  二级通信军士

注册:2011-9-1941
11#
发表于 2018-12-29 10:15:03 |只看该作者
本帖最后由 yeyehehe 于 2018-12-29 10:15 编辑

从用户思维来想:论双卡的重要性

点评

骆驼不吃祥子  言之有理  详情 回复 发表于 2018-12-29 10:50

举报本楼

军衔等级:

  上士

注册:2018-10-84
12#
发表于 2018-12-29 10:50:51 |只看该作者
yeyehehe 发表于 2018-12-29 10:15
从用户思维来想:论双卡的重要性

言之有理

举报本楼

军衔等级:

  上士

注册:2004-9-1719
13#
发表于 2018-12-29 13:21:35 |只看该作者
zhan8peng8 发表于 2018-12-28 15:26
最后赔了几个亿那次?

哪家?

举报本楼

军衔等级:

  上士

注册:2004-9-1719
14#
发表于 2018-12-29 13:22:06 |只看该作者
E+N

举报本楼

军衔等级:

  少尉

注册:2009-1-136
15#
发表于 2018-12-29 13:42:58 |只看该作者
俗话说,鸡蛋不能放到一个篮子里,这次事故,应当引起警醒

举报本楼

军衔等级:

  中将

注册:2014-2-9349
16#
发表于 2018-12-29 15:04:34 |只看该作者
证书过期这种事确实是厂商的锅,软银该花的钱一个都没少花,还来搞这种事。

举报本楼

军衔等级:

  三级军士长

注册:2011-7-2696
17#
发表于 2018-12-30 14:44:52 |只看该作者
phs424 发表于 2018-12-28 17:03
这次不是爱立信和诺西捣鬼,让日本不采购华为的设备么?有好戏看了

吸取教训就可以了。依稀记得某地发生过割接后用户数据被删除的事件,谁也不能百分之百保证不出现问题。

举报本楼

军衔等级:

  大校

注册:2005-6-2524
18#
发表于 2018-12-30 18:02:00 |只看该作者
吸取教训

举报本楼

军衔等级:

  大校

注册:2013-12-3159
19#
发表于 2019-1-1 23:33:15 来自手机 |只看该作者
顺其自然~

举报本楼

军衔等级:

  四级通信军士

注册:2017-12-156
20#
发表于 2019-1-2 09:29:00 |只看该作者
吸取教训

举报本楼

您需要登录后才可以回帖 登录 | 注册 |

Archiver|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2024-4-24 11:47 , Processed in 0.210483 second(s), 16 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部