通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  下士

注册:2007-1-105
跳转到指定楼层
1#
发表于 2008-3-3 10:20:00 |只看该作者 |倒序浏览
第八章  常见的故障处理及实例
8.1病毒感染
故障现象:       
1.        服务器或操作终端反应速度慢,无法正常操作;
2.        后台程序无法正常运行,报错,或自动退出;
3.        计费服务器不能正常登录或计费进程不接收话单,导致立即计费、IP超市不能正常使用;
⒋        破坏数据库,尤其是计费库,使数据丢失;
⒌        计算机自动重启。
影响范围:
1.        影响计算机的正常操作,不能进行正常的日常维护;
2.        影响实时的业务,如立即计费。
预防措施:
1.        安装中兴通讯指定的防病毒软件,并定期更新病毒库,定期进行全盘病毒扫描;
2.        操作系统、数据库打最新的补丁;
3.        安装中兴通讯自主研发的网络安全软件,对关键程序、系统进程实时监控,防止病毒感染;
4.        后台网络与大网隔离,防止外网病毒入侵;
5.        不在ZXJ10后台维护网络上安装、使用其它无关软件;
6.        不使用其它媒介(U盘、移动硬盘、软盘等)对服务器和终端进行操作;
7.        定期作好数据备份,包括交换机数据和计费设置数据等,以便万一出现故障后能够进行迅速恢复;
8.        加强机房操作维护人员管理,强化防病毒意识。
案例1:
现象:XX局ZXJ10V10交换机的IP前置机计费操作失败,影响结算。
处理:检查发现前台积累大量的话单文件,无法完全及时的传送到后台,并且后台话单文件无法进行入库操作,后台计算机反应速度非常慢。经过检查是因为计费服务器感染病毒引起的,该病毒的名字是wom.lovegate,通过杀毒,故障恢复!
点评:该故障就是因为没有做好防病毒工作导致的,由于本局没有立即计费、IP超市、鉴权等实时业务,因此影响还不是很大,只是影响了正常结算和话单及时接收,如果存在上述业务,则影响就很大了,因此平时必须做好病毒预防工作。
案例2:
现象:XX局ZXJ10V10交换机的计费服务器出问题,影响8个点的话吧业务。
处理:经检查,是由于计费服务器染病毒不能正常启动,立即计费终止,话吧用户不能正常使用,杀毒后正常。
点评:这是一起有实时计费业务的案例,对业务的影响就比较大,话吧无法营业。
8.2网络风暴
故障现象:
1.        交换机前后台不能正常通信。
2.        前台MP自动重起;
3.        MP的CPU占用率高,呼叫困难;
4.        计算机速度慢,终端不能从服务器获得数据,或获取数据的速度很慢。
影响范围:
1.        前后台通讯;
2.        前台MP;
3.        后台服务器及操作终端。
预防措施:
1.        后台网络与大网隔离,防止广播风暴;
2.        作好防病毒工作。
3.        操作系统、数据库打最新的补丁;
案例:
现象:XX局ZXJ10交换机MP不能正常启动。
处理:询问现场情况,两个MP均不能正常启动,和服务器通讯中断,将后台网络断开并重启MP后,正常。
点评:事后经分析相关跟踪文件,发现是网络风暴引起的,该交换机的后台维护系统与其它网络相连,当有网络风暴产生时,会直接影响到MP与后台的通讯,并影响到MP本身的工作。
8.3传输故障
故障现象:
1.        模块间通信中断;
2.        模块间通信瞬断;
3.        远端用户单元通信阻断;
4.        局间业务中断;
5.        模块间、局间电话杂音等。
影响范围:
1.        模块间电话业务;      2.局间电话业务。
预防措施:
1.        加强传输设备的定期检查维护,对于隐患要及时排除;
2.        对传输设备进行割接或维护后,要立即对经过该传输设备的所有业务进行测试,及时排除故障,消除隐患;
3.        电话用户出现业务故障后,不仅要检查交换设备,还要迅速检查传输设备,以减少影响的时间;
4.        在作传输设备割接等工作前,通知到相关的设备主管部门,以做好防范和通信保障措施。
案例1:
现象:XX分公司XX端局ZXJ10下挂一个模块中断,影响约五百用户。
处理:经过了解现场情况,该中断的模块内用户可以互相拨打,DTI板状态正常,在DDF上给DTI环回也正常。查传输通道有问题,处理后,模块间通信恢复
点评:由于现场及时检查了传输,使得问题较快定位。
案例2:
现象:XX局ZXJ10反映拨打一个局向电话不通。
处理:局内可以正常拨打,该局向电话不能呼入呼出。经查,系传输中断,处理后,恢复正常。
点评:这是一起传输问题引起局间电话不通的案例,因此,首先保障传输安全,才能保障通信畅通。
8.4对端设备故障
故障现象:
1.        对端误操作,数据配置错误,导致业务不通;
2.        对端设置了电路闭塞,导致中继不通;
3.        对端做了电路自环,影响中继业务和信令;
4.        对端做了升级、重组网、搬迁等中断业务的操作,影响本端业务。
影响范围:视对端的操作情况而影响不一样,可能会影响本端部分用户,或某个局向的电话业务。
预防措施:1.        在修改数据时要考虑到对各邻接局向的影响;
2.        在某个局进行设备割接、升级等工作前,能够通知到其它各邻接局,使各方能有所准备;
3.        出现故障后,及时与对端局沟通,双方配合,缩短中断时间。
案例:
现象:XX局某个局向业务中断
处理:经了解该局出中继为PRA,对端局做数据时将对应PRA中继的30B+D用户置为欠费。让对端局将该30B+D用户欠费标志取消后正常。
点评:这是一起对端误操作的案例,在这起案例中,对端局在修改数据时没有考虑到对其它局的影响(也可能是误操作),从而导致电话不通,因此在做数据时要考虑到对邻接局向的影响,并且在修改数据后要及时拨打测试,一旦出现故障需尽快查明原因,并进行恢复处理。
8.5雷击
故障现象:
雷击后,部分单板损坏、部分后背板损坏、部分线缆损坏,导致该模块部分单元或整个模块电话不通。
故障范围:本模块部分用户或全部用户。
预防措施:1.        保证设备接地良好,接地电阻符合邮电部机房环境规范;
2.        按中兴通讯提供的防雷改造方案,对设备进行防雷改造;
3.        对于雷击多发地区,要准备备板备件,以便雷击后能迅速进行部件的更换;
4.        设备所在的机房要符合邮电部相关机房防雷规范。
案例:
现象:XX局ZXJ10模块间通信阻断,有1000多用户只能内部通信。
处理:检查发现,因雷击导致,影响模块间通讯,更换故障单板,问题解决。
点评:该局没有做防雷改造,机房也没有很好的防雷措施,导致雷击时更易出现设备损坏,庆幸的是,现场及时提供了备板,使中断时间不是太长。
8.6日常维护
8.6.1服务器C盘空间不足
故障现象:
1.        程序运行错误,不能正常运行;
2.        计算机启动后程序不能正常运行,或速度很慢。
影响范围:不能进行正常的后台操作维护。
预防措施:
1.        作好日常检查工作,检查服务器C盘(系统盘)的剩余空间,保证C盘剩余空间不能少于500M;
2.不要在计算机上,尤其是C盘上安装其它软件;
8.6.2故障实例
故障实例1:中兴用户机架电源板故障后换新板不能通信
    2004年12月10日晚,告警箱发生告警,级别2级,观察后发现,5号机架2框左侧电源板出现故障。
告警系统提示:1)铃流输出欠压 ; 2)电源板自身开关关闭;3)电源板掉电;
    发现故障后,马上拿了一块新电源板更换上去,再看告警系统,发现该用户单元1,2框电源板全部提示通信中断,无法观测到4块电源板的状态。于是又查看电源板状态,运行正常,SP板、SPI板、ASLC板也工作正常,在用户端子上试验,打电话没有影响。
    因为该机架是单独的,只有2层用户层,所以怀疑是不是监测线出了问题,但是顺着监测线一直查下去,没有发现损坏迹象。
    难道是新换的电源板的监测端口有问题,造成了告警系统通信中断?于是马上又重新换了一块上去,但是现象还是象前面的一样。经过考虑后,觉得是不是产品的型号有影响,于是经过倒换后把原来2框的右侧电源板换至左边使用,但是现象依然不变,又接连着换了4、5块电源板上去,情况始终不变。
    看见情况如此,没办法了,只好试着将原来坏的电源板重新插上去,想看看情况如何,说不定它又好了呢!可是按下开关后,电源板告警灯亮了一下,然后全部灯就熄灭了,唉!看来是不行了。
    回到服务器前面,再看服务器告警系统,发现通信恢复了,和最初发现的现象一样。怎么回事?服务器怎么只承认这一块电源板?看来只好从这块电源板入手了,仔细观察了一下,发现有一个保险坏了,换了个保险后插上,一切恢复正常。  
    故障总算是暂时处理了。但是为什么换了板会造成通信中断,实在是没有想通,咨询了中兴公司也没有得到明确的解释,举出这个例子就是想多几个人了解,希望能够得早日找出原因,彻底解决隐患。
故障实例2:更换备用MP应注意的几个问题
    11月底返修回一块MP板,自己动手将数据做了,先在服务器备份生成ZDB格式的文件,拷贝至笔记本电脑,然后将MP板硬盘取下用USB连接线接在笔记本电脑上将数据灌了上去,重新装好MP板,插上后启动正常,没有告警。等到凌晨2:30左右将MP板倒换,然后看告警服务器,告警服务器中断,试了下电话。本模块正常, 其他模块由于告警通信中断,无法测试,于是马上将MP倒换回去,恢复正常。
    再次取下MP板,因为USB连接线没了,只好拆开一台维护终端电脑,将数据线连好,电源采用软驱电源,开机后一切正常,仔细检查MP板的硬盘数据,DATA目录的数据一切正确,再检查CONFIG文件夹,打开tcpip.cfg文件,发现区号设置不正确,马上更改区号为本地区号。装好MP板后插上。等了半小时左右,再次倒换,一切运行正常,使用版本升级系统查看,主备MP版本相符,于是放心让新MP板运行。
过了几天,在检查服务器工作状况时忽然发现,BILLBAK文件夹内的话单文件从倒换了MP板后开始不正常,文件大小和以前有明显差别。怀疑是话单接收程序出错,检查后发现接收程序正常。按shift+ctrl+alt+B后弹出接收界面,发现无话单传送,看来是新MP板的设置还有问题。于是将MP倒换,再使用文件系统,将备用的新MP板CONFIG文件夹下的tcpip.cfg文件拷贝出来,与主用MP板(原来正常的MP板)相比较,发现JFcenter设置不一致,于是更改为JFcenter=129后将MP板的原文件替换。等了半小时左右将MP倒换回去,再次查看话单接收程序,话单开始快速传递。等了半小时后使用计费查询来查询原始话单,前几天的记录出现在话单里面,故障总算排除。
总结以上原因,MP板返修回来后,没有仔细检查,返修回来的MP板并不是原来的板子,同时由于经验不足,从而遭成做数据时忽略了tcpip.cfg文件的设置。区号不正确使服务器和下挂模块局不能识别新MP板,造成连接中断。JFcenter设置不当,使得原始话单传递目标不正确,计费服务器接不到话单。
故障实例3:一块用户板不好,可能会影响一个用户单元的用户
故障现象:2004年10月19日,三台许多用户反映电话摘机无声,我室从告警图上看到三台模块一机架第一框的第一和第二十七槽位A电源-5V欠压告警,第一框用户板均正常,第二框A电源及用户板也正常,但第一框和第二框的用户均无法拨打电话,只有第六框用户能正常使用,该模块是8K远端交换模块。
故障分析:造成该故障的原因有三种可能。(1)第一框A电源板故障,影响该框用户,同时影响该框SP板,以至影响第二框用户;(2)第一框某用户板或SP板故障,有短路现象,导致供电欠压,影响该两框用户;(3)第一框背板有短路现象;导致该故障。
故障处理:(1)我室叫现场配合人员将第一框第一、第二十七槽位A电源板取出,把第二框二十七槽位A电源板分别插入第一框的第一、第二十七槽位,仍-5V欠压告警;(2)我室叫现场配合人员将第一框的用户板从左至右依次一块一块地拔出、插入,当拔出第一框第5槽的用户板时,A电源告警消失,一,二框电话均恢复正常;又将第一框第5槽的用户板插入机框时,A电源板再次-5V欠压告警,更换用户板插入后,设备运用正常,故判断为该用户板不好。









举报本楼

本帖有 4 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2025-7-25 10:57 , Processed in 0.213855 second(s), 17 queries , Gzip On.

Copyright © 1999-2025 C114 All Rights Reserved

Discuz Licensed

回顶部