告警处理规范 1.ETH_LOS 告警解释:ETH_LOS为以太网端口连接丢失告警。该告警表示以太网端口接收不到以太网信号。 产生原因: 以太网端口的电缆或光纤没有连接好。 电缆或光纤故障。 本端网元接收光功率过低。 单板故障。 处理步骤: 检查以太网端口的电缆或光纤是否接好,插紧松脱的电缆或光纤。 检查电缆或光纤是否存在故障,更换故障的电缆或光纤。 检查法兰盘或光衰减器是否连接正确,光衰减器的衰减值是否过大。 更换上报告警的处理板。若告警未消除,更换对端网元对应的处理板。 2.MPLS_TUNNEL_LOCV 告警解释:MPLS_TUNNEL_LOCV为Tunnel连通性丢失告警。连续3个周期内没有收到希望的CV/FFD报文时出现此告警。 产生原因: PW对端停止CV/FFD。 物理链路故障。 PW对端单板正在复位。 业务接口配置错误。 网络出现严重拥塞。 处理步骤: 在网管上查看PW对端是否停止了CV/FFD。 在网管上检查该链路两端网元是否存在单板或光模块相关的告警。若告警未清除,查看光纤或电缆是否故障,更换故障的光纤或电缆。 在网管上检查对端单板是否上报COMMUN_FAIL告警。若存在,说明对端单板可能正在复位。清除COMMUN_FAIL告警后,查看本告警是否清除。 对照网元规划表,在网管上查看业务接口是否配置错误。如果是,重新配置业务接口后,查看告警是否消除。 检查故障Tunnel的带宽是否已被完全占用。如果是,增大Tunnel带宽配置或消除非法发送大数据量的根源。查看告警是否清除。 3. BD_STATUS 告警解释:BD_STATUS为物理单板离线告警。当用户在网管上配置了逻辑单板而物理子架上却没有插入实际单板时就会上报此告警。 产生原因: 单板正在硬复位。 单板未插上,或单板插上,但与母板接触不良。 板间通讯故障。 处理步骤: 在网管的“运行态”槽位视图中查看该单板的工作状态是否为蓝色,若是,则该单板处于硬复位状态。等待3至5分钟,该单板的工作状态转成绿色后,查看本告警是否消除。 检查相应槽位的单板是否插入。若未插入,请插入相应物理单板,告警将自动清除。检查单板与母板是否接触良好,母板连接器的导针是否歪斜。修正歪斜的导针,重新插拔单板使之与母板良好接触,告警将自动清除。 在网管上查询是否上报告警的单板或主控板是否存在HARD_BAD或COMMUN_FAIL告警。若存在,更换上报告警的单板,查看告警是否消除。 4. HARD_BAD 告警解释:HARD_BAD为硬件故障告警。当单板检测到硬件出现异常且会影响业务运行时,就会上报该告警。 产生原因: 外接电源失效。 单板与母板未良好接触。 单板硬件故障。 若接口板上报HARD_BAD告警,可能是对应的处理板出现故障。 处理步骤: 确保正常电源接入后,查看告警是否清除。 拔出故障单板,确认背板上的导针无异常。重新插入单板,使单板与母板良好接触。 硬复位上报告警的单板,查看告警是否清除。若告警未消除,更换上报告警的单板。 硬复位接口板对应的处理板,参看告警是否清除。 5. ETH_LINK_DOWN 告警解释:ETH_LINK_DOWN为网口连接故障告警。该告警表示以太网连接错误,端口协商失败。 产生原因: 本端网元和对端网元的端口工作模式不一致,造成协商失败。 端口内环回。 纤缆连接到错误的端口。 单板故障。 处理步骤: 在网管上查看两端网元的以太网端口工作模式是否一致。若不一致,修改设置,使两端的端口工作模式一致后,查看告警是否清除。 在网管上查看两端端口是否存在LOOP_ALM告警,若存在,优化清除LOOP_ALM告警后,查看本告警是否清除。 对照网元规划表,查看上报告警的端口是否错插了纤缆,造成两端端口工作模式不一致。 在网管上查看两端网元的相关单板是否存在HARD_BAD等硬件类告警。若存在,更换存在硬件类告警的单板后,查看本告警是否清除。 6. CES_CEBOUND_PKTLOS 告警解释:CES_CEBOUND_PKTLOS为CES业务网络侧报文丢失告警。当网络侧连续丢包超过设置的阈值上限或当连续3s以上没有收到报文,即上报此告警。 产生原因: 业务承载层中断。 网络侧链路不稳定。 处理步骤: 在网管上查询是否存在ETH_LOS、MP_DOWN或PW_DOWN告警。若存在,优先清除ETH_LOS、MP_DOWN或PW_DOWN告警后,查看本告警是否清除。 检查并确认电缆或光纤与接口良好连接。 7. CES_LOSPKT_EXC 告警解释: CES_LOSPKT_EXC为单位时间内CES业务的报文丢包数超过阈值告警。当单板检测到一定周期内(10s),每秒平均帧丢失个数超出上限阈值(缺省为100)时,即上报此告警。 产生原因: 时钟未同步。 CES业务两端网元参数配置不一致。 Tunnel或PW带宽配置过低,链路拥塞。 电缆、光纤或光模块故障导致链路信号变差或中断。 处理步骤: 在网管上查询是否存在LTI告警或其它时钟相关告警,导致时钟没有同步,缓冲区入与出速率不一致。若存在,优先清除LTI告警和时钟相关告警后,查看本告警是否清除。 在网管上查看CES业务两端网元参数配置是否一致,例如“64K时隙”等。若不一致,修改配置参数,使两端一致。 在网管上查看业务所在Tunnel或PW的带宽配置是否过低。如果是,重新为该Tunnel或PW配置较大的带宽,查看告警是否清除。 检查并确认电缆或光纤与接口良好连接。 8.CESPW_REMOTE_LOSPKT 告警解释:CESPW_REMOTE_LOSPKT为CES PW远端丢包告警。当本端网元收到R比特置位为1的报文时,即上报该告警。 产生原因: 网络拥塞。 物理链路存在错连。 处理步骤: 在网管上查看业务所在Tunnel或PW的带宽配置是否过低。如果是,重新为该Tunnel或PW配置较大的带宽,查看告警是否清除。 查看物理链路是否存在错连。若存在,修正错误的物理链路后,查看告警是否清除。 9. COMMUN_FAIL 告警解释:COMMUN_FAIL为单板间通信失效告警。当主控板和其他单板之间的通信中断时就会上报此告警。 产生原因: 单板处于硬复位状态。 单板故障。 38M系统时钟故障。 电源板故障,造成主控板3.3V电压异常。 主控板不在位或故障。 主控板的EXT接口直接连接HUB或者交换机。 处理步骤: 查看告警,明确与主控板通信失效的单板。在网管的“运行态”槽位视图中查看该单板的工作状态是否为蓝色,若是,则该单板处于硬复位状态。等待3至5分钟,该单板的工作状态转成绿色后,查看本告警是否清除。 检查单板是否存在TR_LOC告警,指示单板收到的38M系统时钟故障。若存在,优先清除TR_LOC告警。检查单板是否存在POWER_ABNORMAL告警,指示单板电压异常。若存在,优先清除POWER_ABNORMAL告警。检查单板是否存在HARD_BAD告警,指示单板硬件故障。若存在,硬复位单板后,查看告警是否清除。若告警未清除,更换上报HARD_BAD告警的单板,并查看背板上是否有倒针。 10. ETH_APS_LOST 告警解释:ETH_APS_LOST告警表示APS帧丢失。当没有从保护通道收到APS帧时出现此告警。 产生原因: 对端网元未配置APS保护。 APS保护组两端配置不一致。 APS保护组状态未激活。 保护通道业务中断。 处理步骤: 在网管上查询对端网元是否配置了APS保护。若没有,在对端网元配置与本端网元一致的APS保护组,并使能协议。 在网管上查询APS保护组两端配置是否一致。若不一致,修改APS保护组配置,使两端配置一致。 检查两端是否都激活了APS保护协议。将已激活的协议状态设置为“禁止”,再重新激活两端的协议状态。 检查保护通道是否存在信号丢失或业务质量劣化等告警,如ETH_LOS。存在,优先清除这些告警。 11. LSR_NO_FITED 告警解释:LSR_NO_FITED为激光器未安装告警。该告警表示光口已使能但光口上没有安装光模块。 产生原因: 光口使能,但没有安装光模块。 光模块或单板故障,监测不到安装的光模块。 处理步骤:
查看光口是否安装了光模块。 更换上报告警端口的光模块,查看告警是否清除。若告警未清除,更换上报告警的单板,查看告警是否清除。 12. LTI 告警解释:LTI为同步时钟源丢失告警。 产生原因: 交叉时钟板上外时钟接口接入的外部时钟源丢失。 线路时钟源丢失。 时钟源被设置为不可自动恢复或被锁定,导致当前跟踪的时钟源丢失时,无法自动倒换到其它时正常钟源上。 处理步骤: 在网管上查看是否存在EXT_SYNC_LOS告警。若存在,优先清除EXT_SYNC_LOS告警后,查看本告警是否清除。 在网管上查看是否存在ETH_LOS信号丢失类告警,若存在,则优先清除这些告警后,查看本告警是否清除。若告警仍未清除,硬复位交叉时钟板,查看告警是否清除。若告警仍未清除,请更换交叉时钟板,查看告警是否清除。 在网管上查看时钟源是否被设为不可自动恢复,如是,将其设置为自动恢复后,查看告警是否清除。在网管上查看是否存在SYNC_LOCKOFF告警,若存在,优先清除SYNC_LOCKOFF告警后,查看本告警是否清除。 13. EXT_SYNC_LOS 告警解释:EXT_SYNC_LOS告警表示外部时钟源丢失(Loss of External Synchronous Source)。当系统检测到设备所跟踪的外部时钟源丢失时,就会上报该告警。 产生原因: 外部时钟源的配置模式与实际的时钟输入模式不一致。 交叉时钟板故障。 时钟输入电缆连接不正确。 外部时钟源物理接口信号丢失。 处理步骤:
在网管上检查外部时钟实际的输入模式与配置的时钟输入模式是否一致。若不一致,重新配置外部时钟源的模式,确保与实际的时钟输入模式均为2MHz或者2Mbit/s后,查看告警是否清除。 在网管上查看交叉时钟板是否存在HARD_BAD等硬件类告警。若存在,清除交叉时钟板的硬件类告警,查看告警是否清除。 检查时钟输入电缆是否连接正确。 检查外部时钟设备的输出信号是否正常。若不正常,更换正常的外部时钟设备后,查看告警是否清除。 14. MPLS_PW_LOCV 告警解释:MPLS_PW_LOCV为PW连通性丢失告警。连续3个周期内没有收到希望的CV/FFD报文时出现此告警。 产生原因: PW对端停止CV/FFD。 物理链路故障。 PW对端单板正在复位。 业务接口配置错误。 网络出现严重拥塞。 处理步骤: 在网管上查看PW对端是否停止了CV/FFD。如果是,重新启动CV/FFD后,查看告警是否清除。 在网管上检查该链路两端网元是否存在单板或光模块相关的告警。若存在,优先清除这些告警后,查看本告警是否消除。若告警未清除,查看光纤或电缆是否故障,更换故障的光纤或电缆。 在网管上检查对端单板是否上报COMMUN_FAIL告警。若存在,说明对端单板可能正在复位。清除COMMUN_FAIL告警后,查看本告警是否清除。 对照网元规划表,在网管上查看业务接口是否配置错误。如果是,重新配置业务接口后,查看告警是否消除。 检查故障Tunnel的带宽是否已被完全占用。如果是,增大Tunnel带宽配置或消除非法发送大数据量的根源。查看告警是否清除。 15. POWER_FAIL 告警解释:POWER_FAIL为电源电池故障告警。该告警表示主控板上的电源状态不正常,如主控板上的电池无电量。 产生原因: 主控板的跳线连接错误。 主控板上的电池无电量。 处理步骤: 联系华为工程师,检查主控板的跳线连接是否正确。若不正确,按照正确方式重新连接跳线后,查看告警是否清除。 更换上报告警的单板,查看告警是否清除。 上述列举的告警是经常发生的告警,详细的处理步骤已经列出,对于其他告警的处理可以参照U2000帮助里面的告警参考。 |