网管员的工作就是与故障打交道,当他们碰到困难时,要害是要有一个清楚的思路来解决问题,本文所述的“望闻问切”相信不止对帧中继专线的维护有价值。
对于数据专线网络治理员来说,诊断帧中继专线故障时,因为局端涉及物理层和链路层故障的判定,因此相对局端仅涉及物理层判定的DDN故障来说,更为复杂。我们这里局端使用新桥公司36170 ATM边缘交换机,原来帧中继专线的维护令许多人头痛,现在有了多次经验以后,诊断帧中继专线故障对我们来说只是小事一桩,经过我的“望闻问切”,很快就能妙手回春。
“望”
当用户报障时,首先我方按用户专线号,通过LIST PATHS命令,输入用户专线号,找到该电路,并检查该电路状态是否正常,理想情况应该是处于CONNECT状态,然而实际中常显示下列状态:
1、假如是CONNECT(DOWN),首先检查两端端口状态是否正常。我们使用的用户设备是新桥公司26和27系列的DTU和一些Modem。DTU的外线状态是否正常比较轻易判定,网管要做的第一步——“望”,就包括看DTU的端口状态是否告警,假如告警,一般情况都是外线出现故障,此时可按流程规定报测量室外线班处理。假如用户端DTU状态正常,而网管一端端口告警,则很可能是用户端设备没有接好,首先应请用户查看本端设备连接情况是否正常。对于Modem的故障判定相对复杂,我方可以请用户检查Modem的显示灯状态是否正常,例如ASCOM Modem在物理层出现故障时,FAULT灯亮;而ASM系列的Modem,我方可以请用户看DCD灯是否熄灭,ERR灯是否亮来判定物理层是否存在故障。对于帧中继电路,当两端外线正常,而用户端路由器链路层协议与网管设置不匹配时,帧中继交换机提供数据链路层功能的帧流STREAM会呈现PROTOCOL OUT OF SERVICE状态,此时专线也会呈CONNECT(DOWN)状态。因此,我方对以上情况均要进行分析,逐一排除,才能找到故障发生点和故障发生原因。
2、假如是INTERRUPTED VIA NMTI,这是系统故障引起的,这时我方只要将该电路DISCONNECT,然后使用UPLOAD,即可恢复正常。假如不小心将该电路的参数进行了修改,那么UPLOAD手段就会无效,这时修复的手段就是将该电路通过NMTI逐段删除,然后重做数据即可。
3、假如是WAITING FOR RESOUCES,这表明帧中继电路缺少可供使用的资源。此时,首先检查两端帧中继链路是否完好,再检查帧中继COS参数(CIR值是否超过帧中继链路定义的端口速率;还有就是DTU端口设置的速率限制必须高于端口速率值;
4、假如是CONNECT,而用户称此帧中继专线不通,首先需要做的是检查该专线两端物理层是否有误码,检查方法是网管做一条普通DDN电路连接测试仪和相应的端口。假如测试结果正常,则网管需要与用户核对相关参数,包括两端路由器上配置的协议与网管配置的协议是否一致。
有时候,以上检查结果均正常,但用户路由器仍无法ping通对端,此时就要用到第二招:“闻”。
“闻”
“闻”,即听用户具体说明故障发生时间,出现什么问题,用户设备状态等。一个经验丰富的网管人员在听到用户具体说明的故障内容后,甚至可以不用通过“望”和“问”就已经可以对该帧中继专线进行诊断(即“切”)了。由于每个用户的故障申报内容都不相同,因此要做到仅通过“闻”就解决问题,需要电信局端网管人员自己不断积累经验和总结,才能达到这一处理故障的最高“境界”,在此不多详述。
“问”
对于有一定经验,但又未达到较高水准的帧中继网管人员,可以通过“问”来发现问题。比如询问用户,该专线是天天均有相同故障还是仅当天才出现此故障,是时通时断还是根本就不通,用户DTU或Modem状态灯是否正常,用户路由器是否正常工作等来判定故障发生原因。有一次,用户称:该专线天天均有故障,这时我就是通过“问”来弄清楚用户是如何天天解决此故障的:
用户说他每次都是通过重启路由器解决问题,那么我们首先要检查帧中继所在两端节点的时钟设置是否正常,假如两端节点不是通过外时钟从专用时钟源取得时钟,那么当节点处于FREE RUNNING状态时,是会影响用户电路的正常使用的,解决办法是修改局端节点的时钟设置。但是时钟设置无误,用户仍天天出现故障,在检查两端物理层无误码的前提下,局端可通过更换帧中继资源模块、帧中继端口、帧中继卡的替换方法试验,发现问题很有可能出现在用户路由器的上层协议(如OSPF、IGRP、EIGRP等)设置上,此时需要通过与用户核对其路由器设置来解决问题,我们通过SHOW INTERFACE命令,可以看到带宽、延迟可靠性、负载、输入和输出错误、载波转换和DTE/DCE控制信号。
在另一种情况下,仅是当天出现故障或根本就不通,则根据“望”的结果,逐一处理,直到发现故障原因;假如时通时断,首先要判定两端物理层是否有误码,其次是判定两端传输所经过的中继是否有误码,新桥的36170产品提供了比较简便的测试方法,即通过在用户端做环路,局端帧中继资源模块使用BERT TEST来进行测试,即可判定从用户端到局端是否有误码存在。
“切”
“切”的方法,对帧中继电路故障的判定,主要是分清楚该故障是局端问题还是用户本身问题。
对于局端而言,首先要确保用户端到端物理层和链路层功能正常。
对于用户本身而言,路由器的问题主要有以下四种:
1) 硬件问题:与电源、内存、CPU有关的硬件问题能导致路由器不能启动。例如间歇的内存问题,使路由器莫名其妙地定期启动;高端路由器的送风模块发生故障会导致紧急报警、温度升高,如不采取措施,当温度升高到一定程度时路由器会自动断电;有故障的端口使路由器不能正常的工作,劣质电缆也会影响路由器的正常工作。
2) 有错误的IOS:网络治理员应该注重到不同版本的IOS支持不同的特征集。考虑到Cisco系列的产品很多,它们都存在着很多的IOS images与之对应的问题。2500系列路由器和12000系列路由器所需的IOS images是不同的。
3)错误配置:在处理故障过程中,我们发现以下三部分最可能出错:ip路由协议、流量治理或接入控制列表(ACL)、端口。
4) 网络中路由器之间错误的相互作用:一个正常运转的路由区域就像一个音色完美的乐器,一个路由器的配置错误或故障引起的后果会影响整个区域。
故障分析图
这四大种类的主要问题可以被进一步细化到小的种类、区域,例如单独的硬件或结构上。本文给出了一张网络及路由器故障原因分析图。此图就是动态变化的,也可以人为增加,当网管员积累了丰富的排除故障经验或碰到新的棘手问题时,可以把这些经验作为自己的分支加入到这张故障排除示意图中。