1、 (8分)GPRS专业重大故障的定义。 (1)、(6分)GPRS专业重大故障的定义; ZDGZ-SB-SJ-001:SGSN:由于各种原因造成SGSN覆盖范围内相关业务(CMNET和CMWAP和行业应用)全阻,且业务没能割接到其它备份设备,设备故障历时超过60分钟。 ZDGZ-SB-SJ-002:GGSN:由于各种原因造成GGSN覆盖范围内相关业务(CMNET和CMWAP和行业应用)全阻,且业务没能割接到其它备份设备,故障历时超过60分钟。 (2)、(2分)承载网/传输/CMNET等相关专业故障引发的GPRS业务全阻,GPRS专业是否需要执行重大故障相关流程? 是。 5、 (10分)SGSN、GGSN、CG、FW、DNS的关键KPI有哪些? ü SGSN:附着用户数/附着容量利用率、激活用户数/激活容量利用率、附着成功率(分单元/单板、分2/3G)、激活成功率(分单元/单板、分2/3G)、inter/intra SGSN RAU、Gr接口信令链路负荷、Gr接口鉴权成功率、单元CPU负荷、内存利用率、出接口/入接口带宽利用率; ü GGSN:激活用户数(分APN)/激活容量利用率、激活成功率(分APN)、radius成功率、Gn/Gi接口流量、CPU负荷、内存利用率、话单传送情况、出接口/入接口带宽利用率; ü CG:话单处理能力(CDR/s)、话单积压数量、、CDR目录存储、CPU负荷、内存利用率、进程状态; ü FW:链接表/session表利用率、NAT利用率、CPU负荷、内存利用率、出接口/入接口带宽利用率; ü DNS:DNS解析成功率、CPU负荷、内存利用率。 6、 (24分)业务抢通思路 (1)、(4分)一台SGSN故障,业务全阻; ü (该SGSN为POOL内SGSN)关闭该SGSN的Gb端口,让业务由POOL内其它SGSN承担。 ü 观察POOL内其它SGSN的关键KPI指标;同时核查故障SGSN上是否承载了非POOL的BSC,如果承载非POOL的BSC,联系地市将其业务割接至其它SGSN; ü 抢修故障SGSN。如果短时间无法抢修正常,可以通过倒包、重启等手段应急恢复大部分业务,以免长时间尤其是晚忙时给POOL内其它SGSN带来较大的负荷冲击。 (2)、(6分)某机房节点GPRS侧CE故障,POOL内2台SGSN业务全阻; ü 检查该POOL内其它SGSN是否开启流控参数; ü 在流控参数开启的前提下,关闭该SGSN的Gb端口,让业务由POOL内其它SGSN承担; ü 业务应急承载后,观察该POOL内所有SGSN的关键KPI,如果出现Gr链路负荷过重、单元/单板负荷过重等情况,立即关根据区域覆盖情况关闭部分BSC的Gb业务(BSC侧配合,比如保障市区业务关闭乡镇业务等); ü 抢修故障SGSN,如果短时间无法抢修正常,可以通过倒包、重启等手段应急恢复大部分业务,以免长时间尤其是晚忙时给POOL内其它SGSN带来较大的负荷冲击。 (3)、(2分)一台GGSN故障,业务全阻; ü 删除SGSN上该GGSN的hostfile/sortlist配置; ü 删除DNS上该GGSN的相关地址; ü 观察其它GGSN的关键KPI以及设备负荷情况,根据实际负荷情况再均衡业务承载; ü 抢修故障GGSN。如果短时间无法抢修正常,可以通过倒包、重启、减小硬件配置等手段应急恢复其业务承载能力,以免长时间尤其是晚忙时给其它GGSN带来较大的负荷冲击。 (4)、(6分)一套FW故障,其所带的GGSN业务全阻; ü 删除SGSN上相关GGSN的hostfile/sortlist配置; ü 删除DNS上相关GGSN的相关地址; ü 观察其它GGSN的关键KPI以及设备负荷情况,根据实际负荷情况再均衡业务承载,如果其它GGSN负荷过重,将session timeout缩短; ü 关注其它FW的NAT资源、CPU负荷等关键KPI,避免出现雪崩效应; ü 抢修故障FW,可以通过FW重启等方法,先将FW抢修为可以承载业务以备不时之需,然后继续彻底处理FW问题。
|