如何排除以太网故障(2) - 王朝网络宽屏版

一半的问题来自于电缆

（1）目测连接性

检查连接性常用的方法就是检查Hub、收发器以及近期出产的网卡上的状态灯。假如是10BASE5的电缆，要仔细检查所有的AUI电缆是否牢固地连接，划锁要同时锁牢，很多问题只要简单地把未接牢的部分重新紧一下就解决了。

（2）受损的电缆或连接部件

在你检查物理层的问题时，要注重受损的电缆，不正确的电缆类型（比如在以太网上用RG62或RG59），未打好的RJ45头，未按牢的BNC头。对怀疑有问题的电缆可以用一般的电缆测试仪进行测试。

（3）连接脉冲极性问题

无论是NIC还是Hub的连接脉冲极性都可以用测试测出，连接极性故障通常是由电缆的接线错误引起的。

检查链路层的问题

（1）碰撞问题

假如平均碰撞率大于10％或是观察到非常高的碰撞，就需要进一步的测试了。假如可能，试着通过减少网段规模（将网络分成小段）并随时监测碰撞的变化以隔离出发生问题的区域。为了跟踪碰撞情况，就必须知道网络的流量。可以使用背景流量发生器来加入适量的流量（100帧／秒、100字节长的流量），并同时观察网络的统计显示。某些和介质有关的故障是与流量的大小成正比的。可以用控制键改变流量同时观察碰撞与错误的改变。这种做法要非凡小心，因为你很轻易给网络加入很重的流量。解决与碰撞有关的问题经常是很费劲的，因为测试的情况在很大程度上取决于观察的位置。也许在同一网段相距几尺远的不同观察点所看到的情况就不同，要多找几个点来测试并留意所发生的变化。

假如碰撞与流量成正比，或碰撞几乎是100％，或几乎没有正常的流量，则可能是布线系统出了问题。对于UTP的布线，可以在Hub上断开电缆然后进行电缆测试。对于同轴缆就要进行阻抗测量，可以使用数字表或其他仪表的直流通断功能进行测试。假如电缆两端都有端接器，从T型接头应测得大约25 ，假如从电缆的一端将会测得50 。

（2）帧级错误

假如出现帧级错误，你就要运行错误统计测试，并通过详查功能把有问题的工作站的MAC地址找出，然后经过测试把故障确定下来。可以试着将驱动程序用“干净”的原盘重新装入工作站，要确认各项配置完全。假如这一切仍不奏效，可以试着把有疑问的网卡换掉。

（3）利用率过高

假如利用率过高（平均值大于40％，瞬时峰值高于60％），那么网段负荷就过重了。应当考虑安装网桥或路由器以减少在网段中的流量或把网段分成若干小的网段。

客户服务器连接的完整性

假如在链路层上是完好的，那么我们就要来看一下协议方面是否有什么问题会影响服务器与客户之间的通信。

（1）连通性

使用专业仪表，你可以运行Server List或Novell Ping测试功能，用来验证从测试点是否可以访问服务器或服务功能。假如服务器没有回应，重新冷启动服务器并注重观察所有所需的驱动软件是否正确加载，有无错误提示。Novell的3．11版本及以前版本，在缺省配置使用802．3RAW的打包，而3．12及以后的版本在缺省配置时都使用了802．2的打包类型。

另外也可试着对服务器进行几次Ping测试，要确认请求信号与返回的响应信号数目相等，结果不一致则表明有时好时坏的网卡或Hub的故障导致帧的丢失。临界状态的和已坏的桥或路由器也可以用此方法很快地定位。

（2）服务器或服务的可达性

假如使用协议分析仪，就要捕捉3至4分钟的数据包来分析。看一下是否有从服务器发出延时请求，并找出是哪个服务器，假如有延时请求，则表明服务器不能完全处理所加载的任务，每一个延时请求作废一个任务请求。

故障2．网络响应慢或性能差

首先，要确定一下是否是与网络介质有关的故障，是一个工作站的问题还是一个服务器或是服务的问题。从其它工作站去访问同样的服务器或服务，并询问本段网络或其它网段上的用户，假如问题不是与介质有关的，要确定问题是否是软件有关，检查网络利用率和软件错误来查找性能差的网络问题。

运行诸如网络统计这样的测试，看一下是否有高流量和不正常的高碰撞存在，在增加背景流量后再运行一下这些测试。假如发现碰撞和PCF错随着流量的增加而增多话，你就应运行电缆测试来检查工作站的连接性。

碰撞问题

假如碰撞较多，要算一下有多带宽被碰撞损失了。把本地和远端碰撞的损失都加起来，假如平均碰撞的值大于5—10％，就要进行进一步的故障查找。同样要检查一下碰撞是否是突发的，也就是说碰撞明显地增多不是因为流量明显增大引起的，假如是这样就意味着某处的物理层出现了比较严重的问题。在碰撞与流量之间应是有一定的关系的。这种关系应当在做网络参照基准测试时收集到。假如碰撞始终是比较多的（但仍是可以接受），可能是太多站点同时在参与发送，或者网络结构应做一些优化使近距离的站点分在一起。过多的碰撞最常见是与介质有关的故障导致的。比如：不正确的端接，特性阻抗不连续（坏接点、残留支缆、残破线缆）等和坏网卡。

过载的网段

假如利用率很高（持续峰值超过60％）而碰撞又可以接受（平均碰撞小于10％），那么网络就饱和了。这时就应该增加网段或用路由器把网段分成较小的可以支持正常流量的网段。

硬件故障

假如出现帧错误，利用专业仪表可以找出错误帧的来源。此后的工作就是在Hub口、网卡和电缆中隔离出特定的故障，假如故障是间歇性的，就替换掉有怀疑的网卡。检查一下服务器／服务是否接在广域网路由器的远端。假如是这样，就用Ping测试来测一下响应时间并与基准测试比较一下。为了保证没丢失帧的情况就要连续运行多次的Ping测试，检查测试请求包与响应包是否相等。假如不相等，远端的介质或互连设备（网桥、路由器等）就有可能是容量问题或有故障。丢帧也是电缆故障之一。比如：UTP布线中的线对串绕和同轴缆由线的环地故障。假如怀疑有丢帧就进行电缆测试。测试接在反应慢的工作站的电缆，也要测一下服务器方向的电缆。

软件故障

运行网络统计测试，假如是高流量，低碰撞，而且有一点错误帧，就先确定发出错误帧的站点。也可以由繁忙站点测试来找出有问题的站点。到该站点现场来查看该用户在做什么。要问明在非高峰时间用户在干什么或把这个用户移到其它网段上，以改善本网段上的其它用户工作情况。假如利用率、碰撞、错误帧都低，要询问抱怨网络性能不好的用户是使用哪个服务器和哪个应用软件。检查该服务器是否处在高负载状况下，它和网络的利用率是不同的概念。要找到使用这个服务器资源最多的用户，这可以用服务器上的用户监测功能或协议分析仪来完成。

无论是网络流量高或低时发生的问题，假如是碰撞很少而且是没有帧错误，这类问题多出自应用软件或与文件服务器有关。服务器可能是Cache设置的太小，保留的缓冲不足，服务器内存不够，服务器硬盘所余空间有限，8－bit网卡等等，这也可能是另一类软件问题，他们可能造成不正常的“网络磁盘请求”，这时有必要将某一应用移到另一个服务器上，要么升级现有的服务器，要么再加入一个新的服务器。

小结

网络故障可能是很复杂的，很多问题会导致同样的故障表现不同。查找故障的基本方法是二分法。为了有效地解决故障，我们需要有网络的文档。了解在网络正常工作时的参数，要装备合理的工具以帮助我们找出网络的故障。有了这些工具，网络的治理者可以把问题隔离到一个小的范围内。在以太网中，所得到的数据取决于取数据时所在位置。从上述的两大类故障中可以看出，网络治理人员不仅需要网络的帧监测工具，也要有主动测试硬件和功能的能力，方便地找出网络中最常见故障的地址。