中兴SDH设备2M电路故障的分析 经过近几年大规模的建设和发展,中国移动的国干传输网以及河南移动的省干传输网本地传输网已基本建设完毕,移动的基础传输网已基本构成。随着移动运营市场的竞争加剧,传输网络的安全性及稳定性要求也越来越高,这就对我们的维护要求越来越高。在我们的日常工作经常会遇见2M电路故障,这些故障有的是设备原因造成的、有的是人为原因造成的,但不论什么原因,大多数故障均会有相对应的告警信息上报。如何利用告警信息快速判断、定位故障,就显得非常重要。下面就2M电路的故障分析如下: 一、2M电接口LOS告警: 网管告警为:2M信号丢失。当它检测PDH一侧没有信号送入SDH设备时,支路板上报的告警信息。 LOS只与本网元有关。一般是以下原因造成的: 1. 接口电缆问题,如信号线开路、短路、错连、电缆型号不正确、电缆衰耗过大。 2. 数据配置错误,如时隙号不对应。 3. 时隙数据丢失。 4. 电接口板相对于某个或某些2M接口电路模块损坏。 5. 传输设备连接的终端设备上的2M接口输出接口故障。 这类故障的处理较为简单,但为了不至于中断业务,可以通过配置新的替代业务的办法先恢复故障业务,然后再处理故障业务。处理此类故障的常用方法是: 1. 在DDF架上对2M电路进行硬环回,判断是传输侧问题还是业务侧问题。 2. 在网管上对该2M口做“线路侧环回”、“终端侧环回”,来判断哪一段不正常。 3. 利用业务数据删除重配法以解决业务数据丢失故障。 4. 替换认为是故障的2M接口板。 5. 检查配置的正确性,通常可使用插入告警法和环回法。 二、2M电接口无LOS告警: 当有2M业务故障时,网管上没有相关2M业务的告警信息。造成这类问题的主要原因如下: 1. 时隙配置问题。如将穿通的业务时隙在某个网元处,把收发配置在相同的光板上的收发TU-12时隙上,造成数据配置环回。 2. 接地问题。如传输设备或基站接地线电阻较大,造成2M同轴电缆屏蔽层的电位太高,如超过120mV。致使芯线中传送的信号的判决门限抬高,从而在业务终端,在多数情况下,这类问题是没有告警信号上报的。 3. 网络中有人为的原因,维护或处理故障设置的各类环回,在故障处理之后没有及时清除环回命令,或硬件故障造成的设备自环。 4. 某些单板在工作时遇到某些强干扰或单板自身的硬件缺陷而导致工作进程进入死循环,俗称‘单板吊死’。 5. 软、硬件版本不正确导致的告警信息不能正确上报。 这类故障的处理较为复杂。由于没有告警信息,会给故障处理带来较大困难。在处理此类故障时,我们可以通过时隙配置重新下发或者仪表测试法、插入告警法和环回等方法来处理此类故障: 1. 时隙配置错误的问题。如将穿通的业务时隙在某个网元处,把收发配置在相对应的光板上的收发TU-12时隙上。 2. (1)仪表测试法。例如某营业部基站搬迁时,一切准备好以后,基站显示黄灯信令不可用,在传输网管上并无告警。怀疑接地有问题,经现场检查传输保护地、基站保护地都正常,传输设备无任何误码,对基站环回基站也正常,接通则基站告警。用毫伏表测量传输和基站对应2M口的直流压降为200mv,怀疑是接地不良造成,通过仔细查看发现基站DDF架未接保护地,用一根35mm的电缆线连接保护地排以后,基站显示绿灯信令正常。在有的高山石多且北方干燥地方,接地电阻不能达到要求时,可通过在传输、基站对应的电缆芯线中各串入0.1微法、20V耐压、无极性的陶瓷电容来解决此类问题。 (2)用误码仪来测试2M电路,以便更准确的定位故障;如果用终端法模式测试,收对方正常则说明传输正常,如果用终端法模式测试,收对方remote,则说明对端传输发不正常(测试连接图如下)。
3. 如果网络中有环回,有这样两种情况,一是人为下发的环回命令,这可 以通过数据库上载予以证实,然后将环回命令清除;如果是设备硬件故障造成的误环,则可通过环回法和插入告警法来判断环回点,然后通过复位相应的交叉板或支路板来解决,需要注意的是,如果要复位交叉板,一定要通过命令将主用交叉板倒换到备用交叉板后,才能对主要交叉板进行复位,否则会终端与该网元相关的全部业务。插入告警和环回法的方法参见《如何利用环回法和插入告警、性能法查找环回点》一文。 4. 单板吊死后,工作灯一般是长亮的,同时网管对吊死单板也不能正常控制或管理。此时通过维护命令不能对这些单板的CPU进行正常测试,但在网管上又能看见已配置的单板信息。凡是遇到此类问题时,解决的方法是对此单板进行拔板硬复位。如复位还不能解决问题,则需要更换相应的单板。 5. 对于某个网元的无告警业务故障,在通过上述处理方法后不能解决问题,则可能是由于时隙数据丢失所致,可通过业务数据删除重配法解决。然后再验证业务是否恢复。 6. 如果是由于软件版本不正确而导致的告警信息不能正常上报,也可通过环回法和插入告警法来判断,但在正常工作的电路中插入AIS后2M业务的终点会有TU12-AIS告警,而告警的插入点的同一个2M业务的收端会有V12-RDI上报,如果没有这些告警或告警信息不全的话,可以断定其中有一块2M支路板的软件版本有问题,应该更换或者升级相应的单板程序。当然,还有一种情况也会导致上述问题,那就是业务的起始点不正确。 三、TU12通道AIS和TU12指针丢失、TU12不可用时间 当有上述告警时,一般来说问题出在系统内部,如光纤线路,光板、交叉板及支路板等故障。此时,2M业务是不通的,其原因如下: 1. 数据配置不正确。如业务在某个网元穿通时,将AU-4或TU-12序号配置错误。 2. 光路上有故障,导致有光信号LOS、MS-AIS和LOF,有这些告警必须先处理这类告警。SDH传送设备故障处理原则设先处理高级别告警,后处理低级别告警。 3. 光板或空分交叉板有故障。 这类故障的处理的原则是:先处理高级别告警信息后处理低级别告警。处理方法一般可以用环回法、单板替换法。 1. 检查网管的时隙配置是否正确,可以用插入告警和环回法相结的方法进行处理。 2. 若是个别支路出现该告警,则采用时隙删除重配法或单板替换法予以处理,这类故障一般出在时分CS板和支路板。 3. 若是所有的支路都出现上述告警,则对光板进行“环回”来定位故障站点,故障一般出在OL板或空分CS板。 四.误码引起2M电路不好 误码的定义:误码就是经接收判决再生后,数字流的某些比特发生了差错,使传输信息的质量发生了损伤。一般用误码率来衡量信息传输质量(BER),即特定观测时间内错误比特数与传输比特数的之比当作误码率。 误码的影响:语音通信中,连续的零星误码通常不会造成断话影响,可能造成电话有杂音,音质下降,一般可以容忍,但对于突发性大误码,则很有可能造成断话,这是不能容忍的。数据通信中信息几乎没有冗余度,数据块中错一个比特和多个比特效果相同,都不能使用,故对于数据通信,可以容忍突发性大误码,而不能容忍连续零星误码。 误码的产生:其产生的原因比较复杂,但归纳起来主要有两部分组成,即内部误码机理和具有突发性质的脉冲干扰源。内部误码机理只是提供了一类很低的背景误码水平,也决定了误码的不可避免性,而脉冲干扰通常是造成突发误码的主要原因。造成误码的内部机理主要有以下几个方面: 1. 各种噪声源。光纤的基本噪声源主要包含接收机光电检测的散弹噪声、雪崩光电二极管的雪崩倍增噪声和放大器的热噪声,它们使接收信噪比降低,最终产生误码。 2. 色散引起的码间干扰。光纤的色散使得传输的光脉冲发生展宽,能量扩展到临近的光脉冲形成干扰。这种干扰有可能造成接收机在判决脉冲时发生错判,造成误码。 3. 定位抖动产生的误码。定位抖动是指光纤系统中带有抖动的数字流和恢复的定时信号之间存在的动态的相位差。定位抖动会造成接收机有效判决点偏离眼图中心,从而引起误码。 4. 设备单板性能下降,对外界的抗干扰能力降低,从而导致某些相关业务出现误码。 5. 接地不好,造成地气干扰增加,造成相关网元的大部分业务出现误码。 6. 光纤线路接头不合格,造成反射衰耗加大和线路衰耗增加,在成系统中的部分业务出现误码。 7. 设备单板未插紧,导致信号相位误差,致使相应网元的大部分业务产生误码。 8. 温湿度异常,导致部分业务出现误码。 处理误码的基本原则:有高级别的先解决高级别的,解决完高级别的,如还有低级别的,再处理低级别的。因为B1可产生B2、B3、V5;B2可产生B3、V5;B3可产生V5。而V5不会产生B3、B2、B1; B3不会产生B2、B1,对OL4、OL1一般B1、B2、B3会一起解决,OL16一般B1、B2会一起解决,有一部分B3由LP16引起。光板只报B1或B2一般是光板的问题. 光板不报B3,电支路板报V5,查找方法如下: 1. 如果光板上报B3性能值,一般来说是光板本身的问题,如光板性能下降,工作状态异常,可以通过替换法或复位法解决。在进行上述操作时,要注意将通过该板的业务倒换的保护通路上,以避免正常业务中断。另一方面,交叉板没插紧、交叉板性能下降或交叉板工作状态不正常也会导致支路板、光板上板B3。处理方法一般也是采用替换发和复位法。 2. 如果时光纤线路上衰耗和反射不合格造成的误码,一般会上报B1、B2、B3、V5等,处理方法是先确定最高级别误码点,然后通过环回法定位具体网元及单板。 3. 对B2、B3、V5来说有本端性能值,相应的就会有远端对告性能值,如果不是成对出现的话,要考虑是否有时隙错配或业务错联的情况。 4. 在查看性能值时,最好现将原来的性能值清空,在查看是否有新的性能值上报,以验证该性能值之否已消失;也可以通过刷新性能值的方法查看性能值是否变化,如无变化,说明该性能值也已消失。 5. 如果只有支路板上报V5性能值,一般是与支路板或时分交叉板有关,可通过替换发或复位法解决。 举例 组网图如下: A到I网元组成155M两纤双向通道保护环,设备类型为V2设备。A网元为中心网元,其余每个网元的业务都集中到A网元。 故障现象:某日查看性能发现所有网元都有少量V5性能值,F网元还有B3性能值,其余没有任何告警和性能。 分析处理:根据故障处理原则,先高级再低级,先考虑处理B3。从双向通道保护环的原理出发,业务走双向,F网元的B3不应该影响到其余网元的性能。为了验证分析,先从F与G网元相连的光板再G做终端侧环回,观察以后后,发现I、H、G网元的V5性能值没有变化。然后,再F网元与G网元相连的光板做在F作线路侧环回,观察后发现I、H、G网元的V5性能值开始增加。初步确立故障点在F网元。在E网元与F网元相连的光板作终端侧环回,观察后发现,B、C、D网元的V5性能值没有变化。所以故障点基本确立在F网元。到F网元查看,发现F网元的机房环境很差,风扇和滤尘网没有及时清理,造成设备工作温度过高,引起光板工作不稳定而造成的误码问题,清理风扇、滤尘网后,故障现象消失。 五.各类保护倒换不成功引起的业务中断 常用的自愈保护倒换有二纤单双向通道保护环、二纤双向复用段保护环,其次还有1:n支路板保护倒换。 在自愈保护倒换中常见的保护倒换不成功有这样一些情况: 1. 二纤单双向通道保护环在配置保护时隙时,没有将保护通道全程配通。 2. 支路板硬件故障导致保护倒换不能正常进行。 3. 支路板软件异常,导致其不能识别正常的倒换告警信息。 4. 在环带链的组网中,环上的业务保护时隙在穿通到达链上光板时(如下图的C网元上的27号光板)是通过AU-4穿通的,由于环带链的保护的 业务、保护时隙的并发优收是在时分交叉板上完成的而时分交叉板不检测诸如TU12-AIS、TU12-LOP、VC12-UAS等告警,如果环上业务光纤中断后,在C网元将不会发生保护倒换。 5.在配置复用段保护倒换时,没有启动保护协议,或虽然启动了协议,单某些光板的软件不正常,版本不正确,也会导致保护倒换不能完成。 6.保护换上某个网元中的交叉板故障会导致保护倒换不能完成。 7.另外,单双向保护环的不确定性有时会导致在某些网元相关单板故障时,导致保护倒换不能正常完成。 处理保护倒换不能完成的方法主要是环回法、替换法及寄存器读取法。 1. 在下图所示的有II型机组成的网络中,A网元到H网元原配置有2条2M业务,同时通过B网元方向配置有相应的双向通道保护时隙,几个月后的一天,当E网元停电后,A到H网元的业务发生中断。
从一般情况来看,A、H之间的双向业务不会因为另一边的网元故障而中断的,导致A、H间业务中断的原因是什么呢?其实,当我们在配置双向通道保护环的业务与保护时隙时,不仅会因为支路板寄存器对数据的使能时间差异而导致一开始就会有某些业务工作在保护状态(例如当我们下发业务保护数据后,在没有出现任何设备告警或系统线路告警的情况下,就有通道业务发生倒换,这可以通过察看维护菜单中的保护状态予以证实),同时还会因为在维护过程中插拔单根光缆尾纤而导致业务的保护倒换,这两种情况常常会将原来配置的双想通道保护环变成单向通道业务保护环。上图就是一个典型的实例。通过环回,发现在对F网元的7号光板做线路侧环回时业务正常,但在对F网元的10号光板做终端侧环回时业务不正常,根据II型机支路板的级联特性,认为可能是支路板故障,更换该支路板后业务正常,对系统进行拔纤能使业务正常倒换。 2. 如遇复用段不能正常倒换时,处理的方法是通过环回法定位不能倒换的网元,然后再对该网元进行相应处理,如更换光板、交叉板或升级相应单板的程序。下图是一个622M二纤双向复用段保护环。B网元到D网元配置
有2M业务,但当B、C网元间断纤后,业务没有发生倒换而导致业务中断,采用对分法现对G网元的10号光板的3号AU-4(业务配置在1号AU-4上)做终端侧环回,业务恢复正常;再对E网元的相应光板的相应AU4做环回,发现在对E网元的10号光板的3号AU4做终端环回后业务不能恢复,倒换主备用交叉板后故障依然,查看是10号光板的软件与其它光板的软件版本不一致,更换后正常。 在日常的维护工作中,要注意预防性维护,把问题控制在萌芽状态。在处理各种故障时都要保持冷静、清醒的头脑,由高级到低级,逐步查找;另外还要注意分析总结,只有不断的总结,才能从中积累经验,提高自己的业务水平,更好地维护网络。
|