[症状]下午某市工商局信息中心来电,其下辖的某县工商局今晨与市局的联网出现问题,速度与往常相比速度慢了许多。其中与该县工商大厦七楼的计算机基本上不能进行数据交换。而与其它楼层的计算机通信虽然速度较慢但还基本上能维持正常的数据交流。由于该市在规划计算机网络广域联网方案时没有考虑将来自身维护的问题,只是简单地在工程合同中将维护工作交给工程承包商负责,自己没有配备专门的工具和培训专门的人员来维护网络。该工程承包商当时负责此项工程的人员早已离开这家公司,故对今日的故障只能表示爱莫能助。经人介绍找到了网络医院。
[诊断过程]我们当晚即乘火车抵达该市并连夜开始查找故障。该市网络规模挺大,下辖7县6区87个工商所,市县局之间用64K的DDN链路连接,工商所与县区局之间用电话线连接。从市局向故障的县局用F683网测试仪作通道测试,速度4K时就上不去了,响应时间804ms,ICMP Ping显
示县局路由器连接成功率在1/7左右。将县局网下挂的所有网络设备断电并拔下所有与路由器相连的联线插头,只留下路由器和一台集线器、一台笔记本电脑与之相连,再作通道测试速度为54k,响应时间46ms,ICMP Ping成功率100%。由此证实故障不在DDN链路,而在县局网络本身。
驱车前往县局工商大楼,恢复大楼网络设备的供电,插上全部线缆插头,然后将Fluke公司的F683网络测试仪接入网络进行网段扫描,30秒后显示双路由器ip地址错误,伴随少量FCS类型帧错误。显然,故障与地址设重的这台路由器有直接关系,但网管人员不知道这另一台路由器来自何方,查机器文档备案资料也无此路由器的资料。经再三询问网络治理人员,才想起原来有一个废弃的备份路由器,半年前就早已经不工作了。虽未从早期不用机架上拆下来,但一直未让其上电工作(电缆联线也未摘下)。我们检查该路由器时却发现它正在上电工作!!,系何人所为暂且不查,立即将电源插头拔下另路由器断电,一分钟后市局来电网络速度恢复正常。此时F683网络测试仪虽然显示双重地址消失,但仍然有少量FCS类型帧错误,这说明网络还存在问题,而且主要是布线及链路设备的问题。联系七楼数据交换比其它楼层困难的故障现象,用F683向各楼层的计算机定点发送流量,结果发现与一楼、二楼和市局的定点数据发送FCS帧错误明显增高,其它楼层正常。基本可以断定是由于雏菊链效应造成的典型故障。据网络治理人员介绍,本网络平时就感觉七楼与市局和一楼、二楼的网络连接速度有时变慢,偶然会有中断现象。查工程图纸,上面只标有一到五楼的布线及网络设备的分布图。六楼七楼的设备由于是半年前该局自己增加的,所以没有标示。无赖我们只得沿集线器布线方向查找网络连接结构。简单的计数就可以知道,七楼的设备与一楼、二楼的设备(路由器在二楼)集线器总数为5个,这很轻易引起数据包的延迟碰撞(在10Base-T网络中则表现为
FCS类型错误帧)。
[诊断评点]雏菊链效应是指局域网(10M网)内任何两个站点之间的集线器数量超过4个后引起的数据传输时间超长而引发的网络错误现象。本案中七楼、六楼为后来增加的网络,网络治理人员没有规划网络就想当然地将集线器按级连方式连接起来,结果出现雏菊链效应。假如不是有人昨天将备份路由器偶然接入网络造成广域网故障,雏菊链效应还将作为一隐患长期潜伏下来。
一般来讲,路由地址竞争将引发严重的路由瓶颈问题,另外路由与服务器、交换器等地址竞争也同样会引起严重的带宽平衡问题。路由与工作站地址竞争情况会好一点。
该市工商局的网络维护和治理可以说基本上处于空白状态,这也是国内许多网络维护治理的典型现状。假如说前几年主要精力放在了网络的建设上,那么现在该是将网络的健康维护工作提到议事日程上来的时候了。否则随着网络规模、速度和复杂性的增加将会后患无穷。
[诊断建议]改变六楼、七楼的集线器连接方式,或者重新做正规布线;指定专人妥善治理备份路由器;培训网络维护和治理人员,配备适当的维护工具,对网络的工作状态做一些必要的定期测试和登记。另外,网络的文档备案工作非常重要,一定要仔细做好这项日常工作,硬件备案时一定要将机器的Mac地址一一对应备案。
[后记]三周后该市工商局对全局系统的网络作了一次全面清理,我们随后应邀对其网络进行了一次抽查,情况基本良好。至于上次的“备份路由器上电案”一直没有人“承认”之。