通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  中士

注册:2014-1-22
跳转到指定楼层
1#
发表于 2017-9-13 15:17:33 |只看该作者 |倒序浏览
根据最新了解的情况,故障简要情况是这样的:

9月8日,广西南宁HSS09(华为)扩容割接完成后,经拨测发现部分用户号码无法作主被叫,数据业务无法使用。影响钦州、北海、防城港、桂林、梧州、贺州本地网部分用户,初步估计80万用户的语言和数据业务受到影响。 初步判断为工程割接人为误操作导致用户数据丢失。

故障过程:
5:00 华为NNHSS09BE01/NNHSS09BE02磁阵扩容子工程后探测发现,由于工程实施过程中厂家实施人员出现误操作,将NNHSS09BE01/NNHSS09BE02互为灾备的各1对DSU单板格式化(该HSS共8对DSU单板),导致HSS中存储用户数据被删除,从而导致钦州、北海、防城港、桂林、贺州、梧州约80万用户2/3/4G所有业务的无法使用。

8:15 完成所有SGSN POOL和MSC POOL的鉴权关闭工作。

10:00 已完成约80万假鉴权(非真实数据)用户的鉴权加载及用户业务数据开通,为了加快用户尽快注册上网络,已通过修改位置更新周期为6分钟,强制用户6分钟后向网络发起注册。故2G业务从10:00开始陆续恢复。

11:40 2/3G业务基本恢复正常

11:40 从BOSS拿到真实的鉴权数据

11:40-13:40 分三批次完成所有真实鉴权数据和用户数据的恢复

截至13:30,故障全部恢复

本次故障,共收到10086投诉20727起。属于集团重大故障。


上面的这些故障过程信息,相信很多同学没有看明白。

没看明白也没关系,作为一名“资深”通信工程师,简单解释一下哈。

9月7日晚,后半夜,厂家人员进行扩容割接(就是增加系统的容量,属于经常会有的工作,我们行内俗称“有操作”)。割接的时候,工程师不小心把HSS设备里面的用户数据给格式化删除了。

凌晨5:00,也就是早上快天亮的时候,广西移动的人发现不对劲,这才知道数据被删了。估计那一刻在场所有人内心是崩溃的。

用户数据没了,就说明你这个用户在系统里面就不存在了。当然,你就打不了电话了,所以很多用户反馈“打电话时说是空号”。

移动赶紧做了两件事:

第一件事,是临时给这80万用户创建用户数据(相当于紧急开个户),同时,因为鉴权数据是不能造假的,所以瞎编了一个鉴权数据,然后把整个系统的鉴权功能给关闭了。


什么是鉴权数据?我们简单点说,就是你手机里面有个密码,移动那边系统里也有个密码,两边密码对得上,你才是真身。 现在移动把密码弄丢了,它没办法鉴别你是不是真的,没办法,它干脆就临时关掉了鉴权功能。实际上,这个时候,如果你是假用户,你也能接入移动的系统,打电话和上网。这个风险是很大的,但移动这时候已经管不了那么多了,总不能不让真用户打电话吧?万一误了事,责任更大。

第二件事,因为当时80万用户都变成了“孤魂野鬼”(因为系统里面他们都是不存在的,所以接不进网络),所以移动完成临时开户之后,需要发起一下强制注册(相当于移动大吼一声——“6分钟后,快来找我”),所有用户的手机赶紧就去找它(注册到网络里)了。

为什么是6分钟,不是6秒钟? 因为这个是强制注册周期时间,6分钟为一个周期,每6分钟就要找一次网络。如果6秒钟的话,全省1000万用户手机,6秒钟找一次爹,这个爹也要累死(负荷太大,系统会崩溃)。

这两件事是为了临时恢复业务。(紧急故障处理的第一原则:先恢复业务)

除了这两件事之外,移动赶紧去BOSS那边拿真正的用户数据去了。

注意哈,这个BOSS,不是老板的意思,是业务运营支撑系统(BOSS,Business & Operation Support System)。通常分为四个部分:计费及结算系统、营业与账务系统、客户服务系统和决策支持系统。说白了,移动电信营业厅,接入的都是BOSS系统,你所有的号码信息,余额信息,开了哪些业务,都在BOSS里面。

11:40的时候,业务临时性恢复了,真正的用户数据也拿到了。

移动拿到真正的用户数据,赶紧写到系统里。等写完之后,数据就算是真正恢复了。这个时候,移动又重新开启了鉴权功能。 一切就都彻底恢复了原样。。。


怎么样?经过解释,大家都搞明白了吧?

那么,问题又来了——

为什么这次故障会有这么大的影响?

这个时候,就要介绍一下我们的主角了——核心网

一直以来,整个通信行业公认的,在通信网络各个组成部分里面,难度最大的、压力最大的、责任最大的、风险最大的,就是核心网。

核心网是整个电信网络的核心部分。想要用通俗的语言解释“到底什么是核心网”,是一件很难的事情。简单说吧,就算你的手机附近有基站,看上去有信号,但是如果没有核心网,你就什么也干不了。既打不了电话,也发不了短信,也上不了网。

而这次出问题的HSS,更是核心网中最最最重要的一个部分。

HSS,归属签约用户服务器(Home Subscriber Server)。所有这个通信网络中用户的数据(包括用户的号码信息,鉴权信息,还有业务信息),都在HSS里面!

方圆几公里,有一个基站。基站挂了,影响几百~几千人。
一个地市,有一个核心网MGW或核心网SAE-GW。如果GW(网关)挂了,影响几十万~几百万人。
一个省,有若干套MSCS或MME,往往只有1套或2套HSS(中国是大国,单省人口比别的国家整个国家人口都多,在很多国家,一个运营商就一套HSS)。你这一个HSS挂了,影响就是几千万~几亿人。。。

你说核心网重不重要?HSS重不重要?

这次广西移动HSS,8对单板,出问题了1对,就是80万用户,要是8对全挂了,嘿嘿。。。想都不敢想。。。

核心网工程师压力大不大?动动手指,就影响几千万用户。。。

像通信网络这么重要的系统,尤其是HSS这么重要的设备,按理来说出现这样的故障是不应该的,可能性极小。现在都强调容灾备份,核心网几乎每个网元每个设备每个单板都有容灾,甚至是异地容灾,如果哪个地方出故障(地震、火灾、恐怖破坏),另一个容灾设备会马上顶上来,不会给用户造成影响。有时候,用户甚至都不会察觉到。

但是这个工程师真的有点神经大条了,也不知道他是不是后半夜太困太累,还是技术水平不过关,竟然把互为容灾的两块单板都给格式化了。。。什么是格式化? 你试试对自己的硬盘点右键,选择格式化,你就知道了。。。

同时,这次也暴露出容灾机制和应急处理机制的问题。

不同的厂家有不同的处理机制,从技术的角度来说,有很多种“如果”,可以避免故障的发生,哪怕不至于影响这么大。系统被设计得很强大,我们行业里的人都知道,有时候你就是想让它摊局,都很难。

但是这次故障偏偏绕开了所有的“如果”,就这样“神奇”地发生了。。。正因为如此,小枣君技术微信群里好多小伙伴都在怀疑:该不会是故意破坏的吧?……

技术逐渐发达的时代,系统变得更加强悍健壮,而它的弱点,就只剩下人。。。


故障确实已经恢复了,但是事情肯定没完。

这次故障这么大,广西移动被用户骂得狗血淋头。加上互联网的传播效应,整个中国移动的品牌形象也受影响。

作为故障设备的厂家,华为的品牌声誉损失也无法挽回。

运营商和设备商,复盘分析肯定逃不掉,追责追罚肯定也逃不掉。虽然有说法说,这次是外包工程师出的错。但是不管是不是外包,都是你华为的设备,脱不了干系。据说,华为国内所有的外包工程操作都叫停了。

作为主要责任人,这个可怜的核心网工程师,估计前途堪忧。饭碗还是小事,弄不好还可能坐牢。以移动和华为的风格,连带的一堆相关责任人都要受罚。

丝毫没有看热闹的意思,也恳请大家不要幸灾乐祸。

非常同情这位兄弟的。干通信的,谁没犯过错?谁没遇到过风风雨雨?

我干了10多年的核心网,也犯过错误,也遇到过大风大浪。

08年在印度,因为本地员工违反工程规范,CHUB单板连接接错,结果升级过程中引起故障,导致印度一个邦(相当于中国一个省)整个业务全断几个小时,小枣君处理不当,负有责任。

09年在罗马尼亚,也是HLR割接(那时候是3G网络,HLR相当于现在的HSS),是一次性将整个客户的所有朗讯HLR数据割接到我司HLR(3000万用户),结果因为割接前核对参数存在理解错误,导致割接上线后所有智能网用户无法打电话,小枣君在现场负责,连续不睡觉30多个小时,才解决了。

……

这样的例子还有不少,最痛苦的一次,连续3天3夜不眠不休,就为处理故障。

我清楚记得我犯过的每个错误,因为付出的代价实在太刻骨铭心。

出故障的时候,客户凶神恶煞似的,站在你身后,就差把刀架在你脖子上;公司领导电话不断打到你这,催问处理进展;本地员工围在你身边,指望你力挽狂澜。。。那种压力,可谓酸爽。。。

没办法,这就是通信工程师的责任,你必须要足够小心、小心、再小心,仔细、仔细、再仔细。敲每个命令,点每个执行,就要认真确认。除此之外,只能祈祷自己技术够牛逼,经验够丰富。

干通信的,技术就是你的护身符,要想现场少流泪,只能平时多流汗。

最后,祝所有的通信汪:远离故障,一生平安。。。

已有 2 人评分家园分 收起 理由
creatvcx + 1 神马都是浮云
happy990 + 1 赞一个!

总评分: 家园分 + 2   查看全部评分

举报本楼

本帖有 4 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2024-6-2 00:46 , Processed in 0.182477 second(s), 16 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部