周卫华 倪县乐 丁炜 北京邮电大学
目前,网络上的应用越来越多,网络就必须能够在故障发生时保证其连续性和服务质量。因此,网络生存性已经成为互联网中的一个重要问题。另一方面,随着光纤技术的发展,链路传输速率已达数10Gb/s。一条链路的损坏将影响大量的应用,而当前基于IP路由协议的恢复机制至少需要几秒到几分钟的时间,这将导致大量分组的丢失,从而造成严重服务质量问题以及网络性能的下降。
网络的生存性是流量工程的重要方面。按照ANSI TIA1.2工作组的定义,网络生存性就是在故障发生的情况下,网络仍能维持服务连续性的能力。以前有关网络生存性的研究主要集中在SDH和ATM自愈恢复方面。但IP/MPLS网络生存性研究还处于初期阶段,IETF提出了两个相关草案,但只是提出了有关网络生存性的框架,并没有提出具体的恢复算法。
MPLS网络自愈机制的基本原理是在节点检测到故障发生之后,立即通知相关的LSR(Label Switch Path)重新选择路由,将受影响的流量转移到备用路径上,完成故障恢复。要成功完成故障恢复需要两个方面的保证:①能够建立用来传送受故障影响的业务量的备用路径;②该备用路径要能够满足受影响业务对QoS的要求。这两个问题的解决需要结合网络设计规划以及故障恢复算法。
MPLS恢复模型
为了提高MPLS网络的生存性,每一条LSP都应受保护,避免故障的影响。LSP有两类:承载正常业务的工作路径和发生故障时使用的备用路径。当网络发生故障时,MPLS把工作路径倒换到备用路径上,从而提供了比基于尽力而为的IP网络更快的恢复。
IETF提出两种恢复模型:保护倒换和迂回路由。图1是在MPLS网络中使用备用路径实现保护倒换机制的例子。工作LSP和备用LSP同时建立。当工作LSP上的某一LSR检测到故障时就向入口LSR发送FIS故障信息,并且,由LSR1把业务倒换到备用路径上。在备用LSP上可以使用LDP信息预留资源,也可以在故障发生后捕获。但是,为了提高资源的利用率,在网络正常时可以在备用LSP上承载低优先级的业务(如尽力而为业务)。当发生故障时,资源可以被高优先级的业务抢占,或者不在备用LSP上预留资源。而如果不预留资源,当故障发生时就不能保证备用LSP能够满足期望的QoS的需求。另外,为了提高故障恢复的成功率,备用路径最好能够根据网络状态的变化及时更新。保护倒换对于常见的故障,如单链失效,节点预先结算备用路径,在出现故障时,直接倒换到备用路径上。这样可以实现与SONET相当的恢复水平,达到数十毫秒的恢复时间。
为了提高正常情况下的资源利用率,还可以使用迂回路由机制,它是在故障发生后建立恢复LSP,而不是与工作路径同时建立。当LSR收到故障通知信息后,如果下游LSR保留了QoS路由信息,则可以选择合适的恢复路径并使用MPLS信令(如CR-LDP)建立恢复LSP。如果下游LSR没有路由信息,则下游LSR通过向上游LSR散发通知信息来寻找恢复路径,此机制与ATM相似。一般来说,不推荐使用散发方法,因为扩散的信息会对网络造成额外的负担以及时延,但是,当缺乏路由信息时却非常有用。
一般来说,迂回路由恢复机制适应性较强,不需要预先计算,并且可以计算出一条优化的路径,对于网络资源的利用和业务量均衡更具优势,但恢复时需要进行较多的信息交换,比保护倒换机制恢复时间长。而保护倒换恢复机制需要节点预先计算并存储有关整个网络拓扑以及网络流量分布情况的数据。
根据保护的范围以及实施备用路径的节点不同,分为链路恢复和路径恢复。如图2所示。链路恢复在发生故障的上、下游节点之间,一般由下游节点通知故障的发生,由上游节点实施恢复路径选择与倒换,此方法的优点是简单易行,速度快。但是,链路恢复不利于处理多个节点或链路失效的情况。
路径恢复发生在受影响的LSP的起点与终点之间,恢复路径与工作路径完全分离,由发生故障的节点向入口LSR通知故障的发生,由入口LSP实施恢复路径的选择和倒换。路径恢复在入口LSR/出口LSR之间选择一条备用路径较为复杂,而且要求较多的信息传递、维护,管理备用路径需要的存储量也较大。但是,它有三个优势:①利于全局优化,需要的总空闲容量较少;②可以恢复链路故障,也可以恢复节点故障;③能够容易地处理多个节点或链路失效的情况。
迂回路由恢复模型是在故障发生后为需要恢复的业务建立另外的备份路径。建立新的备份路径要依据故障的位置、路由策略以及当前的网络拓扑结构。由于保护倒换在故障发生前预先建立恢复路径,那么一旦检测到故障,负责在工作路径和保护路径之间倒换的PSL(Path Switching LSR)就需要比迂回路由更少的时间来恢复业务。但是,保护倒换的缺点是,在没有故障发生时不能有效地利用备用路径上的资源。
迂回路由机制可以分成两类:一、基于请求的恢复,它是在故障发生后选择一个优化的通路并建立恢复路径;二、预指定(pre-qualified)恢复,它是在故障发生前指定了恢复路径,从而节省了故障发生后的路径选择时间。它并不为恢复路径预留资源,并且能减少故障发生后的路径选择时间,因此,它的总恢复时间要小于基于请求的恢复方法。
保护倒换的类型之一是1+1保护,它能够在故障发生时承载与工作路径具有相同的QoS保证的业务,但是不允许在没有故障发生时承载其它的业务。为了增加备份路径资源利用率,还可以采用1:1或1:N的保护类型。由于允许备份路径在没有故障时承载低优先级的业务,只有故障发生,低优先级的业务的资源才被抢占和代替。因此,1:1和1:N的网络资源利用率要比1+1高。
资源管理
MPLS网络中的资源管理包括空闲资源的设计与分配以及空闲资源的动态管理。空闲资源的设计与分配是在网络设计规划阶段计算并预留适当的大小以及适当分布的空闲容量,从而保证网络发生故障后,恢复机制能有效地工作。
目前,空闲资源的设计与分配正在研究之中。
有待研究的问题
以上我们分析了MPLS网络基本的生存性机制。在具体实现时,存在着恢复率、恢复速度、算法复杂性及要求的空闲容量大小各方面的折衷。因此,在实际网络体系中,有待进一步解决的问题包括:
1、随着网络技术的发展和融合,呈现出一种多层面的网络结构。每一层面上都有各自的保护和恢复机制,MPLS与多层间的生存机制协调问题就愈显重要。
2、由于DiffServ模型在当前已经被认为是核心网提供QoS保证的最好机制,因此,基于DiffServ的MPLS网络自愈恢复和优先级恢复算法与实现机制也是研究的一个方向。
3、目前越来越多的应用,如电视会议、视频点播等需要组播通信,因此,MPLS网络内组播业务的有效恢复机制与算法也是必须解决的问题。