[故事之七]
布线环境不符合标准,导致网络性能急剧下降
[症状]
某证券公司求诊,要求查找错误源。近日股市火爆,新增不少用户,但一周内已经三次出现交易数据错误,数据恢复也进行了三次。虽然涉及的金额不大,与证券交易所的资料核对不上,昨晚对历史记录和当日交易记录进行了比较,发现在同一时刻往往有几个用户的交易数据出错。怀疑存在病毒或恶意用户捣乱的可能,用多套软件查杀病毒,并重新安装系统,恢复备份的数据。不料今日故障现象依旧出现。
[诊断过程]
该网络99年2月进行了改扩建,全部采用NT平台。最近又新增家50个站点。根据一般经验,先对新增加的工作站极其联网系统的状况进行常规检查。由于现在已经休市,网上错误无法观察。用流量发生器模拟网上流量进行体能检查,结果如下:正常数据帧下限帧长64Byte各类型帧体能检查,网络致瘫流量为99%,上限帧长1518Byte的致瘫流量为99.5%,错误帧50Byte短帧致瘫流量为90%,错误帧4000Byte超长帧致瘫流量为97%,碰撞最高时为6.4%,略偏高。无新的错误类型出现。从交换机处测试只发现少数传输延迟数据包,以上数据说明,被检查的网络是一个"身体素质"相当好的证券网络。仔细研究发生错误的工作站,发现是在同一个新增用户的集线器组当中,该网段通过一交换机接口与服务器相连。除了对交易服务器和行情服务器分别进行体能检查外,对该网段内的工作站也进行体能检查,各站表现正常。各工作站模拟流量和交易也都正常。可以基本判定,该网络是一个承受能力很强的优秀网络。由此我们怀疑可能存在"恶意用户"(注:恶意用户是指在工作站上安装自备软硬件或将工作站网卡插头拔下并将自带笔记本电脑私自接入的用户,其目的叵测)。为了跟踪数据出错的情况,将F683网络测试仪接入该网段作长期监测。第二天故障现象没有出现。第三天下午开始后10分钟,即13:10分,网络测试仪监测到该网段大量错误出现,其中FCS帧错误占15%,幻象干扰占85%,约持续了1分钟。FCS帧涉及本网段的3个用户。该证券系统装备有CCTV闭路视频监控系统,从长时录像机中可以发现故障对应时刻13:10有一个用户使用了手机,仔细辨别图像画面发现其使用的是对讲机。
无风不起浪,对讲机的功率比微蜂窝手机的功率要大得多,使用频率也更接近网络基带传输的频带,容易对网络造成近距离辐射干扰。但是,一个合格的、完整的UTP电缆系统在5米外还完全能抵抗不超过5W的辐射功率。从故障现象推断,本网络的电缆或接地系统可能有一些问题。随即决定查找本网段50个站点的布线系统(扩容时没有经过认证测试),用Fluke的DSP2000电缆测试仪进行测试,测试结果全部通过。只在中心集线器与交换机端口的插头发现接头线做得很差,外包皮与接头之间有15厘米的缺失,线缆散开排列,双绞关系被破坏。交换机的物理位置离用户仅隔一面玻璃幕墙,直线距离1.5米左右。可以基本断定,对讲机发出的较大功率的辐射信号就是由此处串入系统的。重新按TIA568B标准的要求打线,连接好系统。
[诊断评点]
出问题的网线接头是扩容施工时的最后一根遗漏的网线,为本部工作人员自己临时增补上的。他们不了解TIA568B所要求的打线标准,乃随意为之。系统中串入干扰的途径有多种,比如大动力线与网线并行距离太近或干脆就在同一个走线槽内;与某些辐射源(包括日光灯、电焊机、对讲机、移动电台等)距离太近;系统设备的接地回路不良等等。本案是由散列的网线接头引入近距离的辐射干扰造成。由于对讲机用户比较特殊,他们的干扰是短时的,查找时有时需要"守株待兔"。当然,如果网线全部经过严格的测试,应该不会出现本例故障。
[诊断建议]
建议按标准化的布线环境来设计布线系统,更改系统结构后一定要测试电缆。合格的UTP电缆系统抵抗辐射干扰的能力是很强的,但要求电缆系统必须经过严格的测试(事实上多数布线系统只测试过物理连通性,未做严格认证测试,存在着大量的隐患)。大量的问题都出在不起眼的接头上。建议年检时将布线系统作为年检内容全部检查一遍(也可以以一年或两年为周期平时进行轮测,测试标准可选用北美标准TIA568A/568B或ISO11801等)。营业室内最好禁止使用大功率对讲机,部分大功率模拟手机也要列入禁用清单。故障检测中,应重点检查最近动过的或变更过的设备,此为经验之谈。不过,一个有趣的现象是,当你向某个事后证明他确实更改过设置的用户询问时,经常得到的答复却是:没有动过任何东西。
[故事之八]
插头故障
[症状]
某电信移动计费中心,用户反映,近三个月移动用户总数增加了近30%,但移动计费的营业收入却只增加了5%,怀疑计费系统是不是有问题。从计费服务器查看收费记录,没有发现什么问题。检查计费服务器软件,工作正常。从路由器另一侧的财务服务器检查,内部的财务服务器显示的计费数据与计费服务器的数据没有差错。查找电话局局端记录,发现记录次数超出移动计费的记录次数。最后作实地测试,用移动电话拨打50次,记录次数45次,记录时间与实际通话时间一致的次数为30次。历时一周,还不能确定故障位置。
[诊断过程]
计费服务器连接到一台16端口交换机Bay28115的第一插槽5号端口。第6号端口下挂一个100Mbps的以太网,网管机HP Open View也设置在此。打开网管系统,准备观察5号端口的工作情况,这时才发现无法打开5号端口的工作表数据记录。询问网络管理人员,告知3个月前因交换机故障自行更换过备用的Bay28115交换机,更换后系统工作很正常。查看维护工作记录登记和日志,没有任何关于Bay18115的维护说明,也没有关于网络工作参数的记录(记录上显示的还是系统开通时的原始数据)。询问网管人员为何不设置并打开交换机工作表的Mib。答曰网管系统是一年前安装的,平时只用来看看系统设备是否连接以及是否有报警信号,更多的功能也不会用。前任网络管理员已调任工作岗位,实际上现在已没有人会使用和设置网管系统。由于系统开通是有系统承包商负责的,自行更换交换机后没有发现什么问题,也没再 仔细检查。用网络测试仪的协议对话分析功能从网管机所在网段观察计费服务器的工作情况,发现服务器对约有1/3的数据包没有回应。为了不影响系统工作,于凌晨3:00在移动用户使用率底的时候用F683网络测试仪模拟服务器测试5号端口,显示链路工作于10Mbps速率(原始记录显示此端口的速度应该是100Mbps)。由于交换机没有启动SNMP支持功能,故临时在5号端口安装了一只10Mbps的集线器与服务器连接,用网络测试仪从这个集线器的任意端口对计费服务器发送数据并观察服务器数据流工作情况。发现大量碰撞和错误的FCS帧,当流量为30%时,碰撞及错误流量占21%。用电缆测试仪检查服务器电缆,发现靠交换器一端的插头处近端串扰NEXT严重超差。重新更换插头并正确打线,碰撞率下降为0.5%,错误率为0%。去掉临时集线器,重新启动交换器的SNMP功能,从交换器某空闲端口向服务器发送流量,用网管系统观察5号计费服务器端口,当流量为40Mbps时,碰撞率、错误率、广播率等参数均表现优良。服务器自适应恢复为100Mbps链路速度。
重新进行两组各50次实际拨打测试,计费数据完全正确。可以基本肯定计费功能已全部恢复正常。
[诊断评点]
本次故障的原因非常简单(一个插头问题),但表现出来的现象则稍微复杂一些。该服务器使用的是一个10/100Mbps的自适应以太网卡,设计链路速度为100Mbps。网管人员在更换交换器时曾不小心将插头拉坏,随即更换了接头,但确留下隐患,不过,维护人员并未及时发现速度方面异常。服务器链路此时的实际工作速度已经下降为10Mbps。新交换器没有启动SNMP支持功能,网管系统也就不能观察计费服务器的端口工作状态。在平时的维护工作中,该计费中心的维护人员基本上不用网管系统定期观测并记录网络的工作参数,当故障出现时就不能觉察到服务器工作速度的变化。有趣的是,如果电缆没有问题,即使将链路速度设置为10Mbps,计费服务器应该还是能正常工作的(计费信息的网络流量一般不高)。在本故障中,计费服务器繁忙时由于碰撞率和错误率太高,服务器无法处理一部分数据包,其中已经被"挂号"的部分数据包将被丢弃,造成计费数据不准确。
[诊断建议]
布线系统平时要定期轮测(一至两年轮测意义遍)。更换链路元件后一定要对链路进行测试(尤其是100Mbps链路,必须用电缆测试仪测试)。网管系统要指定专人进行维护使用,一般来讲,网管系统可以覆盖约35%左右的网络故障,因此强烈建议重要的网络要安装支持SNMP或RMON协议(多数网络设备都支持SNMP协议,部分支持RMON),启动已有SNMP、RMON等功能的网络设备,否则网管系统将形同虚设。维护工作要求有及时完整的记录,这对提高处理故障的速度是非常必要的。