通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  新兵

注册:2010-12-16
跳转到指定楼层
1#
发表于 2011-11-14 18:08:04 |只看该作者 |倒序浏览
一、
问题描述问题描述:广东XXX电信810日凌晨出现基站中断,到上午8点才恢复,而告警台上没有断站告警和信令链路中断告警。
网元信息BSC6680 V300R007C01SPC300
二、
问题分析问题结论:告警被人为屏蔽,导致问题时间段不上报相关告警。
分析过程:1、
问题场景分析:
通过反馈的信息确认问题发生的现象,现场反馈810号凌晨基站中断,我们可以通过其反馈的告警信息看到在10号凌晨2点有基站MLPPP中断告警,到上午8点才恢复,期间还伴随了操作维护中断告警


可以确认,期间该基站是中断了,而从反馈的告警文件中确实没有看到相关信令链路中断的1310告警以及基站断站的27020告警。
2、
告警和日志分析:
检查现场反馈的81013点备份的数据库,查看当前1310告警与27020的配置都是没有被屏蔽的:

再次查看Warn进程日志,发现相关基站基本都是配置了1X&DO两条链路,而两条信令链路都同时断了:

根据27020告警与1310告警的关系,即两条链路同时上报1310告警,那么系统将屏蔽1310告警的上报,直接上报该基站的27020告警,所以此时系统中没有信令链路告警是正常的,但是应该可以看到1571号基站的27020告警才对,而目前的系统中却没有看到。
3、
接着我们对比新旧告警数据库的配置发现在89号备份的告警库中其27020告警的屏蔽位是屏蔽状态

也就是说27020告警从892点到1013点期间,其屏蔽状态发生了变化,而产品可以提供修改其状态的命令是【SET ALMMSK】设置告警屏蔽标志命令,根据这条线索我们随即开始分析现场的操作日志。
4、
让现场通过强制发送日志方式反馈了810号的全部操作日志,使用关键字搜索,并未发现有记录过【SET ALMMSK】命令,但除此之外,系统是没有另外渠道来修改此标志的,是否是该命令的记录被人为删除了?
5、
再次对反馈的操作日志进行排列比对,从890点开始一直比对到81014点,发现在序列号是5483654838两个号码之间少了一个54837的命令序列码


根据命令上下之间的关系可以发现,该命令时段发生在810日的上午836分到910分之间。我们系统执行命令的序列是连续的,只有在被人为删除的情况下才会出现不连续的状况。
6
往前追查,7301524分出现过27020的告警,可判定在告警屏蔽的设定时间在730-89日之间,再查询730日往后的日志, 发现序列号是3885038852两个号码之间少了一命令序列码
38850
2
1246070
zj_admin
10.254.90.9---
告警管理系统
Y2011M07D31H15N37S24

38851 //此命令缺失
这里应该是做了屏蔽的 但是被删掉了


38852
2
1264399
emscomm
10.254.89.143
Y2011M08D01H01N59S58

由此可判断在7月31日15点37分-8月1日01点59分这段时间内有人为删除操作记录.

7
分析小结:
经过上述分析,问题情况已经很明确了:在810日凌晨2点到8点这段时间,基站中断,但是由于1XDO都断了,系统将直接上报27020告警,而现场在810836分之前其27020告警是一直被屏蔽的,所以告警台上一直无法看到这些断站上报27020告警。
810836分到910分之间,现场通过命令将27020告警解屏蔽,后又将该操作记录删除,导致无法从命令日志中查询。
三、
规避措施参考解决方案。
四、
解决方案在需要观察告警时间段,请不要屏蔽相关告警.

举报本楼

您需要登录后才可以回帖 登录 | 注册 |

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2025-7-16 22:55 , Processed in 0.341973 second(s), 17 queries , Gzip On.

Copyright © 1999-2025 C114 All Rights Reserved

Discuz Licensed

回顶部