[症状]今天的病人是一家闻名的证券公司。上午9:45,用户来电请求紧急救援,说大户室中的一群声称遭受巨额无故损失的愤怒的股民们正聚集在营业部计算中心的机房门前,质问为什么实时交易的动态信息显示屏幕出现大片空白,数据刷新和交易的速度都极慢,且经常中断,根本无法进行交易。扬言假如不立即恢复交易,将砸掉证券交易所的计算机。交易大厅的散户门也开始向机房云集,假如不及时处理,情绪激动的股民们很可能真的会将营业部计算中心的网络设备砸个希巴烂。放下电话竖立即直奔该营业部,途中继续用移动电话了解得知,该网络为10M以太网,用户数为230个。从卫星接收广播的行情数据,并回传交易信息。由于从卫星接收机监测口观察接收数据完全正常,故网管人员初步判定是网络系统的问题。两个月前就开始有传输数据错误的现象出现,有时数据更新出现空白,数据更新速度偶然变慢,有时出现断续。虽用网管和协议分析仪检查过,但因这种“症状”并不连续出现,且对网络的速度和股民的交易基本没有影响,故一直心存侥幸,没有彻底查找真正的故障根源。前天参加“第二轮证券系统Y2K统一认证测试”,顺利通过。利用剩余时间对硬件设备进行了检测和维护,之后进行联网检查,网络表现正常。不料今天开市就出现严重问题。
[诊断过程]用F683网络测试仪监测网络30秒,观察网络流量为81%(但网管报告为0.2%),错误帧97.6%。错误类型为Ghosts(占93%)、FCS错误(又称CRC错误)和Jabber,即幻象干扰、帧校验错误和超长帧,这表明网络中有大量的非法数据包存在。此类症状一般以电磁干扰和接地回路方面的问题居多。为了确定干扰源的准确位置,将大部分与工作站相连的集线器组电源关断,服务器继续工作,观察错误率降为87%,仍然很高。重新打开集线器组电源,用F43电源谐波测试仪观察,发现谐波含量严重超标(最高970mV)。该网络用一台大型UPS电源给所有网络设备供电,测试UPS输入电源谐波,约为输出电源谐波含量的30%,明显低于输出端的指标,断定为内谐波含量超标。启动小型备用UPS后,网络恢复正常工作(为减少负荷,网络设备分批轮换接入),但网络测试仪显示仍有错误存在,错误率(幻象干扰)下降为1.3%。再次关断集线器组的电源,类型为Ghosts的幻象干扰错误率下降为0.8%,证实仍存在由接地回路串入的幻象干扰,且应该是从主通道进入。摇动卫星接收机的数据输出电缆,幻象干扰时有时无,拔下电缆则干扰消失。网管人员回忆前日维护机器时曾动过该电缆。由此造成连接不良。为使股民能继续交易,稳定情绪,在更换电缆后又将原UPS启动继续工作提供服务。收市后再更换大型UPS,故障彻底排除。
[诊断点评]故障原因有二,一是UPS对电源的净化能力下降,网络外谐波轻易从电源系统串入网络系统,为重大故障的发生提供了基础,但只是累积的内谐波超标还不足以引发致命问题。二是接地回路问题,给大量的内谐波串入网络提供了通道。内谐波是指从电源净化设备的输出端比如UPS的输出端测得的谐波功率,由各种用电设备产生(网络设备绝大多数都采用开关电源,本身就是一个较大的谐波源)。本案中,大量的内谐波功率叠加后从卫星接收机数据输出电缆串入交易网络,一方面以幻象干扰的形式侵蚀网络带宽(此时网络测试仪监测到的错误类型即为Ghosts),当以太网的网络总流量高于80%时,会导致绝大多数的网络瘫痪;另一方面,串入的内谐波将干扰正常数据传输(与正常的卫星广播数据叠加,表现为FCS帧错误和少量长帧),使卫星接收机接收到的数据出错,显示屏出现大片空白或不能实时更新数据。本故障为累积故障,两个月前因UPS性能下降就开始出现少量干扰超标,不过这没有引起网管人员的足够重视。前天维护设备后又增加了电缆接地回路的干扰问题。但因当时未将卫星接收机连入网络,网管人员仅检查了网络部分的工作状况,所以此时的网络表现肯定是正常的。直到今天临近股市开市,当接通卫星广播数据的输入通道时,问题才爆发出来。此时内谐波干扰信号大举入侵网络,几乎造成网络瘫痪。
关断集线器组电源,内谐波总功率下降,干扰信号强度减弱,错误率自然有所下降。更换UPS电源后,错误率大幅下降(理论上应降为零)。但因接地回路问题使50Hz电源及其高次谐波感应信号仍能进入网络形成较小数量的错误帧。需要注重的一点是,一般人在更换UPS后看到网络恢复正常工作即认为故障已经排除,因此很轻易忽视仪器监测指示仍存在的少量错误(1.3%),这可能使“接地回路问题”这一重大故障隐患得以长期存在下去。
此故障的诊断网管系统基本上无能为力。
[建议]电源谐波功率含量和网络错误率要定期测试,当发现错误帧时一定不要掉以轻心。另外,一路电源能带动的工作站建议不要超过30台,否则应象划分网段那样重新划定供电区域。以免内谐波功率累积过大,超过设备的容许范围。假如您的网络可靠性要求很高,或者您的网络对您来说非常重要,那么建议您将主要的网络设备如服务器、路由器等,在网络规划设计时就选择由单独的UPS供电。