检查处理器板
<q cpu
在返回的信息中,主要要关注以下几项参数的返回值:
1、DB STATUS,即卡在数据库中的状态。在节点机正常运行时,返回值应该为ACTIVE。
2、IDLE TIME, 即处理器板的空闲时间。在节点机正常运行时,返回值应该为比较大的百分比,否则说明处理器卡可能超载。
3、CPU STATUS, 说明该卡为主/从处理器,如果为从,后面一项参数将表明主处理器的位置。
4、POWER UP,RESTART,CPU RESTART COUNT 三者共同说明处理器板是否有非正常重启。如果RESTART(重启时间)比POWER UP(上电时间)小很多,而且CPU RESTART COUNT(CPU重启次数)很大,就说明处理器卡有非正常重启。正常情况下CPU重启的次数应该很小。
5、TASK RESTART COUNT,表明自上次加电以来,任务的重启次数,也就标识了任务拥塞的次数。正常状态下,该值也很小。
6、CBUS INTERRUPTS,表明CBUS中断的次数,正常状态时,该值为0。
7、RTC OVERRUNS,表明任务过载的次数,正常状态时,该值为0。
检查系统单元状态
<q sys
在返回的信息中,主要需关注以下几项参数的返回值:
1、CONFIG STATUS,即域在配置中的状态。正常情况下,域A、B都应该为ACTIVE。
2、SERVICE STATUS,即域的工作状态。正常情况下,在线工作的域应该为ACTIVE,而冗余备份的域应该为STANDBY。
3、ONLINE DOMAIN,即在线工作的域。在这里显示在线工作的域为A;同时还显示冗余备份的情况,正常情况下显示为 SYSTEM IS REDUNDANT。如果在某个域发生故障,则显示为SYSTEM IS NOT REDUNDANT,并且会在下面显示出具体发生故障的卡及基本原因。出现这种情况时,应尽快检查和排除故障,恢复总线冗余备份。
检查节点机告警状况
<q ala
在返回的信息中,分为几项显示。第一项IDNX为序号,第二项LVL为告警级别,第三项DEVICE ID为发生告警的设备的标识,第四项LAST OCCURRENCE为该告警最近一次发生的时间,第五项CNT为该告警发生的次数,第六项EVENT TYPE为该告警属于哪类事件,第七项AC表明该告警目前是否仍然持续,最后一项为DESCRIPTION时对告警的描述。其中在AC一项中,如果以*标识,就表明该告警目前仍在持续。一般而言,INFO、MINOR和一些MAJOR级别的告警不会影响整个节点机的正常工作,而CRITICAL级别的告警就可能影响节点机的正常工作,或造成用户通信的障碍。具体的告警相当多,不能在这里详细介绍,可以参照设备说明书进行了解。如按命令响应的提示,输入告警序列号,则可以得到关于该告警的更详细的信息。
检查节点机时钟状态
<q clo
在查询节点机时钟状态的返回信息中,应该关注的是以下一些参数:
1、NODE 248 IS A CLOCK SLAVE,说明该节点是时钟从节点,即它是从上一级时钟源提取时钟。
2、CLOCK MATER IS NODE 1,说明省网中的主时钟节点N1。其它各个省网节点都应该从它提取时钟。
3、REFERENCE # (FROM NODE #)IS SELECTED,说明第#个参考时钟被选定,并说明了该时钟源是从哪一个节点提取得到的。
4、PLL IS LOCKED,说明参考时钟已经锁定。
5、返回信息的下面部分列出了各个参考时钟的情况,其中包括参考时钟号、优先级别(1级为最高级别)、时钟源的卡号、卡类型、卡的工作状态和是否设置为提供参考时钟。正常情况下,各个时钟源对应的中继卡或TMCP卡的工作状态应该为UP,提供时钟源一项中应该为Y。
这里的实例是IDNX/90或70节点机的情况。实际上IDNX/20节点机的情况和90或70节点机大致相同,区别仅仅在于90/70节点机可以有最多8个参考时钟,而20节点机最多只能有两个参考时钟,其它各项内容的项目和意义都是相同的。
检查中继电路质量
<q link
在返回信息中,分别显示了中继电路两端节点的节点号以及相应的中继卡号(TRUNK CARDS),中继电路的状态(DB/LNK STATUS)以及剩余的中继带宽(AVAIL)。正常的状态下,中继电路的状态为ACT/UP,如果显示为ACT/DN则表明中继断。如果可用的中继带宽太小(例如小于64K)则有可能造成本节点机上的用户无法进行通信。
<q gwl
和查询本域内的中继电路状态相比,查询跨域的中继电路状态的唯一不同在于输入命令时必须完整的输入跨域中继的标识,逐条的查询中继状态,其它的返回信息域查询本域内的中继电路的情况相同。
此后,还应该使用Q CAR命令查询各个中继卡上的误码,从而可以判断中继质量。
<q car
在查询的返回信息中,有三项指标体现了中继电路的质量,其显示分为当前情况和上一个测试周期(通常设置为30分钟)的情况。具体说明如下:
1、BIT ERRORS,即误码情况。良好的中继电路上误码应该为0或很小。
2、SCLP ERRORS,即网关信令错误。良好的中继电路上也应该为0或则很小。
3、FRAME SLIPS,即滑帧。良好的中继电路上也应该为0或则很小。
误码率的计算方法为误码数除以总的传输BIT数,就是BIT ERRORS 中OUT OF 前面的数字除以后面的数字即得到误码率。如果出现比较大的误码率(计算误码率高于5x10-8)就应该检查各段线路以及设备,排除误码。
检查中继电路利用率
在操作终端上不能直接查询到中继电路利用率,但可以通过查询每条中继电路的带宽占用情况计算得到中继电路利用率。应该注意的是对于网关节点,需要使用Q LINK和Q GWL两条命令分别查询域内中继电路的情况和跨域的中继电路的情况,综合两个结果才能得到该节点总的中继电路利用率。
在返回的信息中,有一栏上面标识为BANDWIDTH,即带宽状况。在这一栏中有分为两个项目,分别标识为AVAIL(可用带宽)和IN USE(已占用带宽)。这两部分的综合就是中继电路的总带宽,用已占用带宽除以总带宽就可以得到一条中继电路的带宽利用率。应该提出注意的是在返回信息中,同一条中继电路会显示两次(只是两个节点的方向不同),所以在计算时只需要计算一次即可。对于网关节点,使用Q GWL命令逐条查询跨域中继电路,返回信息与上面的实例中相同。计算得到个条中继电路的利用率后,加以平均计算就可以得到该节点的平均中继电路利用率。