通信人家园
标题:
传输故障定位常用方法
[查看完整版帖子]
[打印本页]
时间:
2010-9-29 11:28
作者:
cjy_mu
标题:
传输故障定位常用方法
1.1
告警和性能分析:
当系统发生故障时,网管上会记录非常丰富的告警事件和性能数据信息,通过分析这些信息,并结合
SDH
帧结构中的开销字节和
SDH
告警原理机制,可以初步判断故障类型和故障点的位置。
使用告警和性能分析方法,最关键的问题是如何及时、方便、全面、真实地获取故障相关信息。故障信息的来源有两个:一是通过网管收集和查询传输系统当前和历史的告警事件和性能数据,一是通过观察设备和单板的告警灯运行情况。
注意
通过网管采集告警和性能信息时,必须保证网络中各网元的当前运行时间设置和网管的时间一致。如果时间设置上有偏差会导致对网元告警、性能信息采集的错误和不及时。
网元当前运行时间的设置在“维护管理”菜单中,使用“时间管理”项中的“校准”操作可完成当前运行时间设置和网管的时间的同步。
1.2
环回:
通过告警和性能分析不能解决的问题,如组网、业务以及故障信息相当复杂的情况和无明显告警和性能信息上报的特殊故障情况。可以采用环回的办法解决。环回操作是定位故障点最有效和常用的方法,要求维护人员熟练掌握。环回不需要对告警和性能做太深入的分析,缺点是会影响业务。
进行环回操作前,首先必须确定需要环回的通道、时隙,环回的单板,环回的方向。对于同时出问题的业务,一般都具有一定的相关性,因此对环回通道进行选择时应该坚持从多个有故障的网元中选择一个网元,从所选择网元的多个有故障的业务通道中选择一个业务通道,从所选择的业务通道逐个方向分析的原则。
进行环回操作时,先将故障业务通道的业务流程进行分解,画出业务路由图,将业务的源和宿,经过的网元,所占用的通道和时隙号罗列出来。然后逐段环回,定位故障网元。故障定位到网元后通过线路侧和支路侧环回基本定位出可能存在故障的单板。最后结合其他处理办法,确认故障单板予以更换排除故障。
1.3
替换法:
“替换法”就是使用一个工作正常的物件去替换一个被怀疑工作不正常的物件,从而达到定位故障、排除故障的目的。这里的物件,可以是一段线缆、一个设备或一块单板。
“替换法”适用于排除传输外部设备的问题,如光纤、中继电缆、交换机、供电设备等;或故障定位到单站后,用于排除单站内单板的问题。如某站光板有
R-LOS
告警,我们怀疑发与发的光纤接反,则可将收、发两根光纤互换。若互换后,光板
R-LOS
告警消失,就说明确实光纤接反。
如支践板某个
2M
有
CV
或者“
2M
信号丢失”的告警,我们怀疑是交换机或中继线的问题,则可与其它正常通道互换一下。若互换后告警发生了转移,则说明是外部中继电缆或交换机的问题,若互换后故障现象不变,则可能是传输的的问题。
利用“替换法”我们还可以解决其它如电源、接地等问题。在此就不细讲了。
“替换法”的优势就是简单,对维护人员要求不高,是比较实用的方法。但该方法对备件有要求,且操作起来没有其它方法方便。
特别注意
插拔单板时,若不按按规范执行,还可能导致板件损坏等其它问题的发生。
1.4
配置数据分析法
在某些特殊的情况下,如外界环境条件的突然改变,或由于误操作,可能会导致设备的配置数据(网元数据和单板数据)遭到破坏或改变,导致业务中断等故障的发生。此时,故障定位到网元单站后,可通过查询、分析设备当前的配置数据;如逻辑系统及其属性、复用段的节点参数、线路板和支路板通道的环回设置、支踢通道保护属性。通道追踪字节等是否正常来定位故障。对于网管误操作,还可以通过查看网管的用户操作日志来进行确认。
如某支路板通道保护不动作,我们就需要查看该支路通道属性是否配置了保护。
显然,“配置数据分析法”也是适用于故障定位到网元后,故障的进一步分析,该方法可以查清真正的故障原因。但该方法定位故障的时间相对较长,且对维护人员的要求非常高。一般只有对设备非常熟悉、且经验非常丰富的的维护人员才能使用。
1.5
更改配置法
“更改配置法”所更改的配置内容可以包括:时隙配置、板位配置、单板
参数配置等。因此“更改配置法”适用于故障定位到单站后,排除由于配置错误导致的故障。另外“更改配置法”最典型的应用就是用来排除指针问题。
如怀疑支路板的某些通道或某一块支路板有问题,可以更改时隙配置将业
务下到另外的通道或另一块支路板,若怀疑某个槽位有问题,可通过更改
板位配置进行排除;若怀疑某一个
VC4
有问题可以将时隙调整到另一个
VC4
。
在升级扩容改造中,若怀疑新的配置有错,可以重新下发原来的配置来定
位是否配置问题。
但需要注意的儿我们通过更改时隙配置并不能将故障确切地定位到是
哪块单板的问题(线路板、交叉板、支路板、还是后背板问题)。此时,需
进一步通过“替换法”进行故障定位。因此该方法适用于没有备板的情
况下,初步定位故障类型,并使用其他业务通道或板位暂时恢复业务。
应用“更改配置法”在定位指针调整问题时,可以通过更改时钟的抽取方
向以及时钟的基准源进行定位。其应用情参见《分类故障的处理》中的指针
调整问题处理。
由于“更改配置法”操作起来比较复杂,对维护人员的要求较高。因此除非在没有备板的情况下,用于临时恢复业务,或用于定位指针调整问题外,一般使用不多。此外在使用该方法前,应保存好原有配置,同时对所进行的步骤予以详细记录,以便于故障定位。
1.6
仪表测试法
“仪表测试法”一般用于排除传输设备外部问题以及与其它设备的对接问题。
如我们怀疑电源供电电压过高或过低,则可以用万用表进行测试;若怀疑
传输设备与其它设备对接不上是由于接地的问题,则可用万用表测量对接
通道发端和收端同轴端口屏蔽层之间的电压值,若电压值超过
500mv
,则可
认为接地有问题,若怀疑对接不上是由于信号不对,则可通过相应的分析
仪表观察帧信号是否正常,开销字节是否正常,是否有异常告警等。
通过“仪表测试法”分析定位故障,说服力比较强。缺点是对仪表有需求,
同时时维护人员的要求也比较高。
1.7
经验处理法
在一些特殊的情况下,如由于瞬间供电异常,低压或外部强烈的电磁干扰,致使传输设备某些单板进入异常工作状态。此时的故障现象,如业务中断、
ECC
通信中断等,可能伴随相应的告警,也可能没有任何告警,检查各单板的配置数据可能也是完全正常的。经验证明,在这种情况下,通过复位单板,网元掉电重启。重新下发配置或将业务倒到备用通通道等手段,可有效地及时排除故障、恢复业务。
但建议尽量少使用该方法来处理,因为该方法不利于故降原因的彻底查清。
遇到这钟情况,除非情况紧急,一般还是应尽量使用前面介绍的几种方法,
或通过正确渠道请求技术支援,尽可能地将故障定位出来,以消除设备内
外的隐患。
时间:
2011-3-13 14:09
作者:
wangweiwangne
好啊
通信人家园 (https://www.txrjy.com/)
Powered by C114