成功排除故障的要害是把握定位(Localize)、消除(Eliminate)、测试(Test)和支持(Support)。换句话说,就是定位并发现故障,消除或改正它,并确保故障真的已经排除。对于帧中继专线故障的分析和处理,因为局端涉及物理层和链路层的故障判定,因此相对于局端仅涉及物理层判定的DDN故障来说是比较复杂的。下面以电信局端使用新桥公司36170 ATM边缘交换机为例,说明如何对帧中继故障进行分析判定和处理。我们知道,中医看病需要通过“望闻问切”才能发现病人症结并最终妙手回春,对帧中继专线进行故障判定和处理使用的方法,和中医看病的方法是一致的。
1 “望”
当用户申报故障时,首先我方按用户所报专线号,通过对整个网管使用LIST PATHS命令,输入用户专线号,找到该电路,并检查该电路状态(STATUS)是否正常,理想情况应该是CONNECT状态,而不应该是CONNECT(DOWN)或INTERRUPTED VIA NMTI、WAITING FOR RESOURCES等状态。
(1) 假如是CONNECT(DOWN),首先应检查两端端口状态是否正常。目前广州新桥网上使用最多的用户设备是新桥公司26和27系列的DTU和其他公司各种型号的Modem ,如ASCOM和RAD ASM系列Modem。DTU的外线状态是否正常比较轻易判定,网管要做的第一步“望”就包括看DTU的端口状态是否告警。假如告警,一般情况是外线出现故障,伴随用户端DTU的LINE灯会呈现闪烁状态,此时可按流程规定通知测量室外线班处理。假如用户端DTU状态正常,而网管看到端口告警,则很大可能是用户端设备没有接好,这时应请用户查看本端设备连接情况是否正常。Modem的故障判定相对复杂,可以请用户检查Modem的显示灯状态是否正常,例如ASCOM Modem在物理层出现故障时,FAULT灯亮;而对于ASCOM系列的Modem,局方可以请用户看DCD灯是否熄灭,ERR灯是否亮来判定物理层是否存在故障。对于帧中继电路,当两端外线正常,而用户端路由器链路层协议与网管设置不匹配时,帧中继交换机提供数据链路层功能的帧流STREAM会呈现PROTOCOL OUT OF SERVICE状态,此时专线也会呈CONNNECT(DOWN)状态。因此,局方对以上情况均要进行分析,逐一排除,才能找到故障发生点和故障发生原因。
(2) 假如是INTERRUPTED VIA NMTI,这是系统故障引起的,这时局方只要将该电路DISCONNECT,然后使用UPLOAD,即可恢复正常。假如不小心将该电路的参数进行了修改,那么UPLOAD手段就会无效,这时修复的手段就是将该电路通过NMTI逐段删除,然后重做数据即可。
(3) 假如是WAITING FOR RESOUCES,这表明帧中继电路缺少可供使用的资源。此时,首先检查两端帧中继链路是否完好,再检查帧中继COS参数,看CIR值是否超过帧中继链路定义的端口速率(INTERFACE SPEED)。还有就是DTU端口设置的PORT SPEED限制必须达到端口速率值,否则均会出现此情况。
(4) 假如是CONNECT,而用户称此帧中继专线不通。首先需要做的是检查该专线两端物理层是否有误码。检查方法是网管做一条普通DDN电路以连接测试仪和相应的端口。假如对此线路的测试结果正常,则网管需要与用户核对相关参数,包括两端路由器上配置的协议与网管配置的协议是否一致。对于帧中继电路,LMI(LOCAL MANAGEMENT INTERFACE)协议类型包括ANNEX A(ITU-T标准)、ANNEX D(ANSI标准)和LMI(Cisco标准)。假如路由器配置协议类型和网管不一致,也会造成状态正常,但无法通信。如以上检查均正常,需与用户核对两端路由器的DLCI号与局端配置的DLCI号是否一致。
2“闻”
假定上述检查均正常,但用户路由器仍无法PING通对端,此时电信网管方需通过第二步方法:“闻”,即听用户具体说明故障发生时间,出现什么问题,用户设备状态等。一个经验丰富的网管人员在听到用户具体说明的故障内容后,甚至可以不用通过“望”和“问”就可以对该帧中继专线进行诊断(即“切”)了。由于每个用户的故障申报内容都不相同,因此要做到仅通过“闻”就解决问题,需要电信局端网管人员自己不断积累经验和总结,才能达到这一处理故障的最高“境界”,在此不多详述。
3“问”
对于有一定经验,但又未达到较高水准的电信帧中继网管人员,可以通过“问”来发现问题。比如询问用户,该专线是否天天均有相同故障,还是仅当天才出现此故障,是时通时断,还是根本就不通;用户DTU或Modem状态灯是否正常,用户路由器是否正常工作(可通过指导用户使用SHOW指令来发现问题)等来判定故障发生原因。例如用户称:该专线天天均有故障,这时首先弄清楚用户是如何天天解决此故障的。
(1) 假如用户是通过重启路由器或通过网管RESET电路来解决问题,那么首先要检查帧中继所在两端节点的时钟设置是否正常,假如两端节点不是通过外时钟从专用时钟源取得时钟,或者不是通过2Mbit/s中继提取时钟,那么当节点处于FREE RUNNING状态时,会影响用户电路的正常使用的,解决办法是修改局端节点的时钟设置。假如时钟设置无误,用户仍天天出现故障,在检查两端物理层无误码的前提下,局端可通过更换帧中继资源模块、帧中继端口、帧中继卡的替换方法试验。如无效,则问题很有可能出现在用户路由器的上层协议(如OSPF、IGRP、EIGRP等)设置上,此时需要通过与用户核对其路由器设置来解决问题,同时需请用户通过SHOW INTERFACE、SHOW FRAME PVC、SHOW IP ROUTE等指令来查看路由器物理层、链路层以及OSI更高层的状态。例如,SHOW INTERFACE命令可用在物理层故障判定上。通过该指令,你可以看到带宽、延迟可靠性、负载、输入和输出错误、载波转换和DTE/DCE控制信号。
(2) 假如仅是当天出现故障,则按“望”的步骤,逐一处理,直到发现故障原因,并解决。
(3) 假如时通时断,首先要判定两端物理层是否有误码,其次是判定从用户端到局端的帧中继资源模块处所经过的中继是否有误码。新桥公司的36170产品提供了比较简便的测试方法,即通过在用户端做环路,局端帧中继资源模块使用BERT TEST来进行测试,即可判定从用户端到局端是否有误码存在。假如局端物理层和链路层检查均无问题,则可以通过与用户核对参数的方法来解决问题。
(4) 假如根本就不通,则应按“望”的步骤,逐一排除故障可能发生原因,最终找到故障所在并修复它。
4“切”
前面“望”、“闻”、“问”中,也提到了“切”的方法。对帧中继电路故障的判定,主要是分清楚该故障是电信局端问题还是用户本身的问题。
(1) 对于电信局端而言,首先要确保用户端到局端物理层和链路层功能是否正常。主要方法是通过测试仪测试物理层是否有误码,或通过帧中继测试仪测试链路层是否正常,以及使用新桥36170本身提供的BERT TEST功能对帧中继电路进行用户端到局端的测试。此外,局端的工作还包括判定帧中继资源模块、帧中继端口、帧中继卡、节点控制卡、节点系统卡、节点时钟和传输中继是否正常,判定用户路由器设置两端DLCI号与局端设置是否一致,判定用户路由器的COS参数设置与局端设置是否一致。
(2) 对于用户本身而言,路由器的问题主要有以下4种。
硬件问题:路由器的硬件故障与内存、CPU、电源子系统、LAN/WAN接口或通过它们端口与网络的其他相连的传播媒体等有关。与电源、内存、CPU有关的硬件问题能导致路由器不能启动。例如:间歇的内存问题,使路由器莫名其妙地定期启动;高端路由器的送风模块发生故障会导致紧急报警、温度升高,如不采取措施,当温度升高到一定程度时路由器会自动断电。有故障的端口使路由器不能正常工作,劣质的电缆也会影响路由器的正常工作。
不同版本的IOS问题:网络治理员应该注重到不同版本的IOS支持不同的特征集。考虑到Cisco系列的产品很多,例如16、26、75、120等系列,它们都存在着很多的与IOS images对应的问题。有两个以太网口、一个串口的2500系列路由器和具有OC-48/STM-16接口或G比特以太网接口的12000系列路由器所需的IOS images是不同的。当一台路由器或一条专线发现故障时,首先要采取合理的方法排除与硬件配置相关的那些显而易见的原因。假如故障仍存在,则有可能是IOS有问题。
错误配置:典型的路由器配置包括以下部分,即治理员部分(路由器名称、口令、服务、日志)、端口部分(地址、封装、带宽、度量值开销、认证)、路由协议部分(IGRP、EIGRP、OSPF、RIP、BGP)、流量治理部分(接入控制列表、团体)、路由原则