通信人家园

标题: AP循环REBOOT 故障处理  [查看完整版帖子] [打印本页]

时间:  2015-12-8 20:21
作者: liusiyuan0425     标题: AP循环REBOOT 故障处理

故障现象:
    网管不能联机。AP的的两个NODE之间交替REBOOT,最终会导致两节点UNDEFINED状态。
  可能原因:1、数据盘镜像故障   
raidutil -L raid  有数据盘节点状态为Drive  Failed
           2、磁盘空间满导致统计故障         一般有相关的统计告警
           3、。。。。
处理流程如下:
1.        telnet 该网元,在cluster res 起来,但还没有来得及循环reboot时停掉进程控制的cluster res (ACS_PRC_ClusterControl);
   cluster res ACS_PRC_ClusterControl_0  /off  /wait
     cluster res ACS_PRC_ClusterControl_1  /off  /wait
cluster res |findstr -ive online
若没有failed 的cluster res 进行第4步;否则转入第5步;
raidutil -L raid   如果有Drive  Failed 的镜像盘,则进行重建,一般会持续6小时左右。 若重建失败,则需更换node
   eg: 如果由于R盘或S盘满引起统计进程停止,则先应删除无用的文件,消除硬盘空间告警,在对统计进程进行重启
    不能在不作任何相关处理的情况下,直接将failed状态的cluster res 进行人工online
cluster res ACS_PRC_ClusterControl_0  /on  /wait
    cluster res ACS_PRC_ClusterControl_1  /on  /wait
hostname
prcstate
alist
net state
cluster node
           cluster res |findstr -ive online





通信人家园 (https://www.txrjy.com/) Powered by C114