通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  大元帅

注册:2004-8-101104

爱心徽章,06年为希望小学奉献爱心纪念徽章 爱心徽章,09年为家园助学活动奉献爱心纪念徽章 家园09年十大网友 爱心徽章,2010年为家园助学活动奉献爱心纪念徽章 爱心徽章,2011年为家园助学活动奉献爱心纪念徽章

跳转到指定楼层
1#
发表于 2004-12-3 21:24:00 |只看该作者 |倒序浏览
摘要:随着电信业的发展与市场竞争的深化,用户对网络可用性的要求越来越高。本文将重点介绍可用性的相关概念和参数,并提出提高网络可用性的方法。

关键字:可靠性、可用性、SLA、MTBF、MTTR



一、网络可用性越来越受到关注

近年来,随着电信业的发展与市场竞争的深化,对电信产品的要求越来越高,客户在关注设备性能的同时,也开始关注网络质量。不同的用户对网络的可用性提出的要求也不尽相同。运营商不能再采用同样的网络提供给不同需求的用户,而是需要根据具体的用户需求,建设相应的网络,提供相应的服务。

SLA(Service Level Agreement)概念已在国际市场获得广泛应用,同时也开始在国内受到运营商和用户的关注。可用性指标是SLA的重要组成部分,它已经不再是纸上谈兵,而是需要从实际出发,向客户提供实实在在的指标和有质量保障的网络。网络可用性已经成为建设网络时必须考虑的重要因素。

用户对网络可用性的关注也给运营商带来了新的发展机遇,运营商可通过签署SLA和提供高可用性的产品来满足用户需求,树立企业品牌,从中获得效益。然而,SLA为企业带来高回报的同时也带来较高的风险,如果网络指标没有达到SLA的要求,那么它将会成为企业的负担。

传输是网络通信的基础,它为各种业务提供传输通道,传输网络的质量对未来业务的发展具有深远的影响。本文将从如何衡量传输网络的可用性及如何提高传输网络可用性等方面进行阐述。

二、网络可用性指标的定义和计算

1、常用可靠性指标定义

平均故障间隔时间MTBF(Mean Time Between Failures):在规定的条件和时间内,系统累计运行时间与故障次数之比。

平均修复时间MTTR(Mean Time To Repair):在规定的条件和时间内,产品在任一规定的维修级别上,修复性维修总时间与在该级别上被修复产品的故障总数之比。

可用度A(Availability):可维修产品在规定的条件和时间内,维持规定功能的能力,它综合反映可靠性和维修性。计算方法为:A=MTBF/(MTBF+MTTR)。

年停机时间DT(Downtime):在一年内,产品由于故障维修而处于不能工作的全部时间之和。停机时间与可用度之间的换算关系为:年停机时间=(1-A)×365×24×60(分钟)。

通常,我们所说的产品可用性包括可靠性和可维修性两个方面,可靠性用MTBF衡量,可维修性用MTTR衡量,而可用性则用可用度A衡量。

2、网络可用度指标计算

※  串联网络的可用度计算



图1  串联可靠性框图

在串联网络中,任何网元失效都将导致整链产生故障。如图1所示,假设一个串联网络由n个系统组成,那么最终网络的可用度指标可表示为:

其中:    A:串联后的网络可用度;

              Ai:第i个网元的可用度;

              n:网元个数。

※  并联网络的可用度计算



图2  N+1并联网络模型

图2所示的N+1并联网络模型,NE(1)到NE(n)为主用路径,NE(p)为保护路径。其中,任何一个主用单元的故障都可切换到备用路径NE(p)上工作。这样即实现了网络的N+1保护,通过RBD模型推导可得到N+1网络可用度指标计算的公式如下:



其中:An+1:并联后的网络可用度;

Aa:主用(Active)路径的可用度;

As:备用(Standby)路径的可用度;

c:网络倒换成功率;

n:主用路径个数。

实际的网络模型将比本例复杂得多,考虑的因素也更多。我们建议用Markov模型或者专业的可靠性仿真软件等来预测网络的可用性指标。

三、网络可用性的相关因素分析

评估和建设一个具有高可用性的网络是一个庞大的系统工程,它需对设备的可靠性、网络介质的可靠性、网络拓扑结构、运行环境、管理和服务等方面进行综合分析及改进。在确定网络模型之后,影响整个网络可用性的主要因素如图3所示.



图3  影响网络可用性的因素

※  备件、维护和服务:备影响网络可靠性的因素包括:

※  传输介质:光纤、光纤连接器、电缆;

※  设备:硬件板卡失效、软件失效;

※  网络设计:网络的整体规划、网络解决方案;

※  电网及运行环境:电网可用率、设备运行环境;件策略、培训、维护、客服以及地震、战争、洪水等不可抗力因素。

※  备件、维护和服务:备影响网络可靠性的因素包括:

※  传输介质:光纤、光纤连接器、电缆;

※  设备:硬件板卡失效、软件失效;

※  网络设计:网络的整体规划、网络解决方案;

※  电网及运行环境:电网可用率、设备运行环境;件策略、培训、维护、客服以及地震、战争、洪水等不抗力因素。

从上面的分析可以看出影响网络可用性的主要因素,在实际分析时应从多方面入手,抓住重要因素,在网络可用性和建设成本之间找到一个平衡点。

下面将从提高传输介质可靠性,提高设备固有可靠性,优化网络拓扑结构,提高电网环境和设备运行环境,提高备件、维护和服务水平等方面来分析影响网络可用性的各种因素,并给出提高网络可用性的建议。

1、提高传输介质的可靠性

对于一条端到端的电路,对可用性影响最主要的是传输介质,包括光纤、光纤连接器、电缆、电缆连接器以及其它传输线等。

实际上,传输介质特别是光纤的可靠性,远低于设备的可靠性。一般认为,光纤的失效率与传输距离成正比。根据GR-418标准,光纤的可靠性指标为400FITs/km,这相当于每285km平均每年失效一次。根据互联网公布的国外某运营商的数据,2003年光纤失效率为422FITs/km,平均维修时间为13小时。可见光纤具有失效率高和维修时间长的特点。在传输介质中,除光纤之外,光纤连接器也属于易失效部件,经常会出现由于松动、灰尘及连接错误等引起的光纤连接失效。

相比光纤,电缆和电缆连接器的指标更差,它们受到人为影响的可能性更大。电缆一般集中在传输网的业务落地侧,随着光口交换机和路由器的出现,传输电缆的用量正逐渐减少。

据一些咨询公司和运营商的统计数据表明,对于一个端到端的电路而言,光纤失效往往在网络失效中占有很大的比例,大部分已超过整网失效的50%,有的甚至达到80%以上。因此,提高网络可用性首先要考虑的是如何提高传输介质的可靠性。

下面提供对于光纤等传输介质的改进建议:

※  减少光纤和连接器的失效,控制采购质量;

※  减少光缆保护盲点,可采取接入层成环和入大楼管道双路由等措施;

※  控制由于人为因素造成的传输介质失效,如挖断等人为破坏;

※  在局内采取控制措施:室内光缆有效保护、光缆/电缆正确标识、提高插拔光纤/电缆的规范性以及室内尾纤的合理布放等;

※  建立快速的维护响应队伍,减少光纤故障后的维修时间。

2、提高设备基本可靠性

除了光纤之外,设备也是影响网络基本可靠性的重要因素,这包括硬件和软件失效。不同的通信设备,软/硬件失效的比例不同,一般而言传输设备的硬件失效率比软件失效率高一些,而路由设备则是软件失效率比硬件失效率高。根据GR-418提供的数据,传输设备软/硬件失效比例为1:3。

产生硬件失效的因素很多,最主要的是器件的基本失效。器件失效率可根据温度、静电和环境等参考标准(GJB299、TR-332)进行预计。除器件本身失效之外,还有其它原因间接影响器件的失效,如硬件设计、制造、工艺、环境和EMC等。

产生软件失效原因包括设计过于复杂、对异常情况考虑不完善和软件BUG等。通过CMM流程的质量控制和对软件可靠性的度量、分析及测试,可提高软件的可靠性。软件失效除了可能导致板卡的功能失效之外,还可能导致系统或者整网的功能失效,影响较大,故障也难以定位。

设备制造商必须采用设计流程、质量保证流程及闭环等措施才能确保设备的可靠性。下面是华为公司在提高设备可靠性方面所采取的措施:

※  通过完善的集成产品开发流程保证软/硬件设计的可靠性;

※  通过系统可靠性设计优化系统结构,充分考虑网络的解决方案;

※  通过全面采购控制与设计规范等手段保证器件的可靠性和应用规范;

※  提供闭环的问题处理与跟踪流程,保证问题及时解决和跟踪;

※  通过FIT测试、老化试验、环境试验和HALT试验措施保障设备的可靠性;

※  设计中全面考虑故障检测、隔离和恢复设计,提高故障管理能力;

※  引入CMM流程,通过对软件的度量、分析和FIT测试保证软件的可靠性;

※  支持计划性的在线升级、补丁和扩容功能;

※  关键部件采用1+1保护方案,如交叉板卡1+1和电源模块1+1等。

设备商的研发能力和完善的可靠性保障流程是运营商在采购设备时考虑的重要因素。

3、优化网络拓扑结构

目前,传输网络正逐步地从SDH向ASON演进,网络保护也将从1+1保护逐步向MESH组网保护发展。届时,网络设计已不再是将简单的几个设备连接在一起组成一个网络那么简单,而是根据网络的结构和现状,提供一个低成本、高可用性和高利用率的解决方案。

光纤介质的失效对整网的影响最大,因此首先应对光纤传输距离较长的网络进行网络保护,如MSP、SNCP和MESH等。除此之外,还需考虑对掉电可能性大的站点增加节点保护,对可靠性要求高的网络可考虑采用MESH组网方案。

下面提供几种增强网络可用性的组网方法:

※  增强网络保护能力,减少光纤、节点失效的影响;

※  重要业务节点之间采用1+1 MSP链保护;

※  通过小环加小环的组网方式代替大环组网,减少光纤失效的影响;

※  减少传输路径长度和传输节点数目,采用大容量设备取代背靠背转接。

总之,网络的设计需要综合分析运行环境、网络定位和客户需求等因素,提出相应的解决方案,这已逐渐成为运营商选购设备时需要考虑的重要因素。

4、提高电网环境和设备运行环境

环境因素的影响包括多方面,最主要的是电网环境。这方面在国内尤为严重,运营统计数据表明,在部分电源条件不好的本地网络,如农村电力和机房无蓄电池等环境,掉电事故占所有事故的50%以上,部分地方比例更高,且电网失效往往会导致整个设备掉电,甚至导致整个站点或者机房的所有设备失效。此外,直接导致设备失效的原因还包括火灾、地震、台风以及洪水等不可抗力因素。

其它环境因素一般是指环境温度、湿度、盐雾和粉尘等,这些因素会间接地逐步影响设备的可靠性,如缩短设备使用寿命、导致器件失效率增加和加快设备腐蚀等。

以下提供针对环境因素的改进方法:

※  配备蓄电池和油机等备用电源,减少设备掉电导致的节点故障;

※  优化组网方案,如增加备份节点,相互备份的重要站点不放置于同一机房;

※  对重要节点提供空调环境;

※  通过环境改造,减少高温、高湿、盐雾粉尘和腐蚀性气体对设备的影响。

5、提高备件、维护和服务水平

在建设一个网络的同时,必须配备相应的备件。备件方式和备件策略的好坏直接影响到最终板件失效后的维修时间。备件离故障点越近,维修时间就越短,网络的可用性越高,但若备件库存太多又会增加成本。可根据实际情况确定备件的更换率、周转时间和成本等因素,确定备件策略。

维护操作异常是人为造成设备失效的重要原因,包括操作流程不规范、维护不及时、割接和扩容等因素导致的业务中断。

服务水平是体现设备商综合能力的重要因素,服务的好坏直接影响到一个网络的可靠运营能力。例如,设备定期巡检、用户需求快速响应、设备问题快速定位和及时处理、客户定期培训和交流等都会间接地提高网络的可用性。

下面是一些针对备件、维护和服务等方面提出的改进措施:

※  优化维护体制,建立快速响应的维护队伍,减少业务中断时间;

※  提高维护技术水平,增加技术和流程培训,减少操作事故,减少故障定位时间;

※  制定完善的备件策略,减少备件响应时间;

※  采购设备时考虑设备制造商的服务水平;

※  增加计划性的维修,减少潜在故障的发生机率。

在建设一个网络的同时,必须配备相应的备件。备件方式和备件策略的好坏直接影响到最终板件失效后的维修时间。备件离故障点越近,维修时间就越短,网络的可用性越高,但若备件库存太多又会增加成本。可根据实际情况确定备件的更换率、周转时间和成本等因素,确定备件策略。

维护操作异常是人为造成设备失效的重要原因,包括操作流程不规范、维护不及时、割接和扩容等因素导致的业务中断。

服务水平是体现设备商综合能力的重要因素,服务的好坏直接影响到一个网络的可靠运营能力。例如,设备定期巡检、用户需求快速响应、设备问题快速定位和及时处理、客户定期培训和交流等都会间接地提高网络的可用性。

下面是一些针对备件、维护和服务等方面提出的改进措施:

※  优化维护体制,建立快速响应的维护队伍,减少业务中断时间;

※  提高维护技术水平,增加技术和流程培训,减少操作事故,减少故障定位时间;

※  制定完善的备件策略,减少备件响应时间;

※  采购设备时考虑设备制造商的服务水平;

※  增加计划性的维修,减少潜在故障的发生机率。

6. 总结

网络的可靠性是一个庞大的系统工程,在网络前期规划时,必须对设备、网络介质、拓扑结构、环境因素、网络管理和技术服务等方面进行综合分析与设计,才能使网络的可用性得到高度保障。

到目前为止,华为公司已经为国内外数百个光网络实施了评估和优化服务,为运营商提供满足高可用性的网络解决方案,降低了运营商OPEX,带来了丰厚的经济效益。

举报本楼

您需要登录后才可以回帖 登录 | 注册 |

手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2024-5-21 12:33 , Processed in 0.249830 second(s), 16 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部