通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  新兵

注册:2008-9-21
跳转到指定楼层
1#
发表于 2015-3-2 14:56:25 |只看该作者 |倒序浏览
中兴网管服务器故障分析报告
1. 故障描述
6月20日早1点左右,运河路中心机房值班人员发现中兴G网网管无法登陆,及时通知工程师现场处理。维护人员现场发现网管服务器SUN V890出现硬件故障,导致网管无法正常使用。
2. 故障处理过程
在网管所在终端PING服务器地址,发现无法PING通,现场排查发现服务器已经下电关闭。给服务器上电后,服务器硬件告警灯黄亮,在系统上电的整个过程中,没有别的异常指示。在系统开启大约5分钟后,系统提示自动关机,服务器自动下电。
再次给服务器上电,通过FTP登录到服务器取得日志信息,并通过服务器系统自带的硬件检测系统打印当前系统状态,发现系统自动关机是因为有两个CPU温度过高,导致服务器保护性关闭,打印信息页面如下图所示:
    同时发现风扇状态均正常,如下图打印页面所示:
由此推断是CPU或者CPU的温度传感器出现故障。现场机器共配置2CPU模块4CPU,从故障现象看坏掉一块,还有一块正常,于现场没有备件,为了尽最大可能减少影响,维护人员觉得尝试将2个故障CPU板卡从服务器机柜拆出,并对服务器重新上电启动网管服务器。上电后服务器告警灯灭,正常进入系统后没有再自行关闭,运行正常。但网管服务程序由于内存不足,运行十分缓慢,并且运行一段时间后容易产生进程吊死的情况,导致服务器丢失性能数据、告警等信息,网优中心维护人员根据需要和厂家人员一起对网管进程进行了不必要长期贮存的程序清理,网管程序勉强维持运行,但要彻底解决此问题仍需更换新的CPU板件。
    东营联通网优中心在第一时间联系网管厂家中兴公司协调购买新的CPU板卡,由于此服务器型号较老,配件较难购买,625日才重新购得新的CPU板卡,并于下午19点左右将新板卡安装于服务器,服务器上电后运行正常。26日通过网管的性能数据补采功能,将故障以来丢失的性能数据重新进行补采,并与从IBSC级网管统计的性能数据进行比较,指标正常。对网管的其他重要功能一一进行了验证,验证结果均无异常,至此网管的业务全部恢复正常。
3. 故障分析与总结
    服务器CPU因为老化发生故障,温度过高导致整个服务器自动保护性关闭。由于服务器机型较老,采购新的配件较为困难,造成长时间系统无法正常运行。建议后期对这种老式服务器进行统一更换,方便日常的维护管理。
4. 下一步措施或方案
加强老型设备的监控维护工作,有条件的尽快更换为新产品,方便日常的维护管理。
                                             网优中心

举报本楼

您需要登录后才可以回帖 登录 | 注册 |

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2025-8-2 19:46 , Processed in 0.122198 second(s), 17 queries , Gzip On.

Copyright © 1999-2025 C114 All Rights Reserved

Discuz Licensed

回顶部