根据独立的研究,我们明确提出了维护网络的“七个最佳方法”,这些方法在100个以上节点的网络中使用,可明显增加网络的无故障工作的时间,减少网络维护和支持的费用。“七个最佳方法”刊载于“网络健康维护战略”一文中。其中一项内容讲的是“快速隔离和排除故障”。重要的一点是,支持人员应配备适当的工具并具备相关的知识,以便在第一次接触终端用户时就能有效地解决问题。
本文讨论网络技术人员和工程师经常碰到的十个令人头疼的问题。先分析问题,然后讨论使用何种工具来帮助查找和进行故障隔离。本文旨在具体说明网络健康维护战略中提到的快速查找隔离并解决网络问题的各种方法。
问题10:莫名其妙的间歇性连接中断
-用户抱怨-服务速度太慢,连接间歇性中断
-症状- 问题仅在一个网站上出现,与正在访问的服务器无关。
-查找问题-断开网站,接上一个具有流量发送(此为诊断过程的一部分)功能的测试工具,如Fluke的便携式网络测试仪,检测网络的利用率、碰撞和错误帧水平,确定网络是否健康。若仪器检测通过而只是网站时通时断,则表明是典型的物理层故障。进行电缆链路测试(包括用户连接电缆),此时长度测试可能显示电缆超长(UTP电缆为100米,同轴电缆为185米)。超过IEEE规定的答应长度,这将会引起局域网内的传输信号严重衰减。
-解决问题-在链路中增加中继器,使电缆长度限制在答应范围内。另一个办法就是用光纤代替电缆或同轴线。
问题9:可以连接,但不能登录
-用户抱怨-不能登录到欲连接的服务器
-症状- 问题通常在新安装或重新设置工作站后出现,但仅限于一个工作站
-查找问题-断开工作站连线,接上网络测试仪(如FLUKE的网络一点通OneToUCh或网络测试仪LANMeter),执行IPXPing或者在取得服务器列表后来检查配置的是哪一层的网络协议。注重帧的封装类型(例如802.2)。现在可以测试网卡,检测安装和运行的驱动程序是否正确。还要注重检查网卡绑定帧的类型(比如802.3)。两个帧类型要匹配,假如服务器和工作站运行的帧类型不同,则不能连接上网。
-解决问题-用Editor打开工作站的NET.CFG,修改其中一行:将FRAME=ETHERNET_802.3改为FRAME=ETHERNET_802.2之后将工作站连接上网,Reboot工作站,检查服务器连接状况。
问题8:“病人”的心还在跳吗?
-用户抱怨-在网络繁忙的高峰期访问网络的速度很慢
-症状-个别网段的所有工作站对不论是本网段的服务器还是其它网段的服务器都无反应
-查找问题- 在高峰时段将网络测试仪连接到该网段。运行该网段的网络健康测试,注重观察网络的利用率、碰撞、错误帧、广播帧的状况,此时可能看到平均碰撞率不正常,观察到的流量中可能有高达50%是碰撞帧碎片。这是帧信号收发错误--SQL(Signal quality error)的表现。“心跳”信号被不经意地停留在“博”的位置。
-解决问题-定位网段中每一个信号收发者,检查SQE开关是否位于“关”的位置。此信号用在早期的10BASE-5以太网中,新的以太网设备已不再使用。
问题7:希奇!难道电缆在夜间受到过撞击?
-用户抱怨-不能连接上网或不能登录
-症状-网段上只有一个工作站能上网
-查找问题-断开工作站的连接电缆,接上网络测试仪。注重从集线器上应检测不到连接脉冲。运行电缆测试,查看从办公室到配线间之间的电缆是否开路。假如长度正常,将工具设置在音频发生器位置,从配线间用音频探测器查出与办公室对应的电缆,通常情况下,在配线间有变动时,电缆线束会受到推挤和碰撞,引起连接器脱落或松动。
-解决问题-重新插好工作站和集线器之间的电缆连接器,查看连接脉冲指示灯是否发亮,确定用户是否能上网。
问题6:光纤错觉
-用户抱怨-整个网络变慢
-症状-影响所有连接到网段上的工作站
-查找问题-在正常的网络使用时段,将网络测试仪连接到集线器,在光纤连接的两端产生流量,测试每边健康状况。在某一时刻断开或接上光纤,每当光纤连入网段时,就会观察到大量的错误帧。劣质的光纤链路连接会在其附属的网段中产生大量垃圾帧,迫使工作站重发帧,网络速度变慢。
-解决问题-清洁或重新安装好光纤连接器,复位所有的连接器,再次检查网络健康状况,此时应该只有很少的错误帧。
问题5:IP网络治理者的报应
-用户抱怨-某个工作站间歇性出错,不能登录或者不能访问远端服务器
-症状-只影响一个工作站,通常在增加、移动、变更工作站后出现此问题
-查找问题-先排除用户是否有帐户和安全设置方面的潜在问题,让用户登录并且试图从另一个工作站重复这一操作。假如成功,则可以用网络测试仪检查从用户端到服务器之间的链路状况。然后测试网卡,检测硬件和驱动程序的功能和状况。假如没有问题则检查IP设置,确定用户的IP地址是否有效或者是否有重复的IP地址,确定本网段的子网掩码和路由器默认地址是否正确,DNS服务器(假如有)地址是否专用。假如一个新工作站的IP地址与打印服务器的IP地址设置重复,将会把每个人的打印工作指向该新客户机。
-解决问题方法-改为合适的设置,然后Reboot工作站
问题4:刍菊链效应
-用户抱怨-网络服务变慢
-症状-影响某个以太网段的所有用户。网络服务(访问服务器)变慢,但与所连接的某个服务器无关。
-查找问题-在高峰时段将网络测试仪连入集线器,运行网络健康状况测试。此时将会观察到大量错误帧。在10BASE-2网络中,错误帧的类型归类为“延迟碰撞”。在10BASE-T网络中,
帧错误的类型归类为典型的帧校验序列错误(FCS错误)。随着网络用户的增长,新增加的集线器通常与原有的集线器形成“刍菊链”效应。
-解决问题-统计一下任意两个网络设备之间经过的中继器的数量。在10Mbps以太网中不应超过4个,在100Mbps快速以太网中不应超过2个。假如数量超标,则按以太网的标准修正网络拓扑结构,然后再验证错误帧是否还出现。
问题3:无效的看门狗
-用户抱怨-不能连接Novell网络的Netware远端服务器
-症状-影响本网段内与服务器相连的所有工作站
-查找问题-检查网段的健康状况,注重观察其利用率、碰撞、错误帧和广播帧水平。此时可观察到大量的碰撞或错误帧,该碰撞或错误帧可引起客户机和服务器之间“Hello”帧出现延迟。在某一指定的服务器所在的远端网段重复此测试。假如两个网段都出现空白,用网络测试仪向路由器中的SNMP代理查询,检查两个网段之间的路径表。确定该路径不存在拥挤问题。为了有效地使用资源,在看门狗答应的时间内假如客户机对“hello”帧无反应,则Novell服务器会将该客户机注销。
-解决问题-简便的方法是改变“看门狗时延”参数,将Novell服务器中的该参数增大。假如状况有所改善,则可确定为引起帧丢失的原因。纠正看门狗延迟帧计时器参数。
问题2:快速以太网比升级前的以太网还慢
-用户抱怨-10Mbps的以太网速度慢,升级为100Mbps快速以太网后甚至不能连接上网。
-症状-影响新工作站或升级的工作站连接上网。
-查找问题-对于UTP5类非屏蔽双绞线,用电缆测试仪验证其是否符合对应100Mbps传输速率的EIA/TIA-TSB67标准。某些在10Mbps以太网工作正常的电缆链路因为近端串扰太大在100Mbps以太网就不能正常工作。信号耦合到邻近线对引起高频信号传输失败。将UTP的线对分开甚至会使网络在达到一定流量时瘫痪。
-解决问题-更换或停用不能连接的链路,故障清除后再全部测试处置过的链路。
问题1:逮捕那些物理层的滥用者
-用户抱怨-不能登录或时断时续
-症状-只影响一个工作站,而该站原先没有问题
-查找问题-电缆终端链路过长。用户天天都移动、弯曲、连接和切断网络终端(尤其是膝上型笔记本电脑)。廉价的电缆测试仪就能检查这种问题。在你能确切地说是电缆的问题之前,通常首先考虑不是电缆问题。这需要使用网络测试工具来验证本地网段的健康状况是否良好,集线器端口功能是否正常,网卡及其驱动程序工作是否良好。最后检查网络互连设备是否有问题。只有此时你才会知道为了孤立有问题的终端、断开的连接器或是接地回路等问题,该从何处着手测试电缆。在同轴线网络中,搜寻在同轴“T型头”和网卡之间的断头。在UTP网络中,连续运行仪器的接线图测试功能,不断扭动终端以识别接触不良或短路。
-解决问题-更换工作站连接电缆,更换损坏的连接器,或者必要的话停止使用水平电缆。再次全面检查处理过的电缆。