交换机作为局域网中数据交换传输的核心“枢纽”,其运行性能的高低直接影响着网络数据传输的效率。
一般情况下,普通的二层交换机往往不大轻易出现故障,不过最近单位培训中心机房的某一台普通二层交换机遭碰到一则莫名其妙的故障,考虑到该故障现象有点希奇而且也比较轻易出现,解决起来也不是一帆风顺,为此本文现将该故障排除过程贡献出来与各位交流,以帮助各位提高交换机故障解决效率!
故障回放
单位培训中心机房共有36台普通工作站,2台考试专用服务器,通过三台交换机连接在一起组成一个中等规模的培训、考试网络,其中有一台思科WS-C2950sx-24型号的交换机作为局域网的主交换机,另外两台D-Link DES-1024D型号的交换机作为局域网的次交换机,每台次交换机中同时连接了18台普通工作站,而每一台次交换机又都级连到局域网中的主交换机中,2台考试专用服务器直接连接到局域网主交换机中,局域网中所有计算机均通过主交换机连接到外网中(如图1所示)。
图1
近日,培训中心机房的一部分普通工作站忽然全部不能访问考试专用服务器了,另外一部分工作站却能够正常访问到服务器中的内容,笔者赶到机房接线柜旁,对其中的网络连接设备进行了一番仔细检查,发现某一台次交换机控制面板中的所有信号灯处于全亮不闪烁状态,很明显连接到这台交换机中的所有普通工作站自然就出现网络不通的现象了。
故障排除
起初,笔者还以为是交换机缓存发生了溢出现象,导致了交换机意外瘫痪了,于是毫不犹豫地将该交换机的电源切断,过一会之后重新接通了交换机电源,待交换机启动稳定之后,笔者特地尝试从普通工作站中去访问局域网中的考试服务器,结果发现普通工作站已经能够正常访问服务器了。看到故障这么快就被顺利解决了,笔者心中暗自兴奋,同时对自己的网络治理水平有点洋洋自得了;可谁曾想到,前脚刚刚离开培训中心机房,后脚就接到培训中心老师的“求援”,说刚被解决了的网络故障又重新出现了。
再次返回到机房接线柜旁时,笔者看到先前出现问题的那台交换机现在又好象处于瘫痪状态了,这难道是局域网中的网络病毒“惹”的祸?虽然笔者知道局域网中用于教学、培训的普通工作站中肯定存在这样或那样的病毒程序,但假如真是病毒程序“惹”的祸的话,与该故障交换机型号相同、连接方式也相同的另外一台次级交换机也应该出现相同的故障才对(如图2所示),可现在另外一台次级交换机工作状态很正常,连接到这一台交换机中的所有工作站也都能正常访问服务器;根据这一比较,笔者几乎断定交换机瘫痪现象是由于先前的交换机自身碰到了硬件故障引起的。
图2
由于交换机硬件故障主要包括端口、电源、模块、背板等部件的故障,于是笔者就从这几个方面对故障交换机进行了逐一检查。在排除端口因素时,笔者认为端口故障至多是一个或几个端口可能会被损坏,不可能在某一时刻交换机中的所有端口都会发生损坏,因此笔者推断交换机硬件故障不应该出在端口位置处;在检查电源时,笔者发现该故障交换机和另外一台次级交换机连接到相同的电源插座上,也就是这两台交换机的电源输入完全是一样的,但现在有一台交换机能够正常工作,这表明电源输入也不应该出现问题。在排除了端口和电源因素后,笔者估计交换机的硬件故障很可能发生在模块或背板部件处,而对于这类硬件故障我们普通用户唯一能做的就是重新更换新的交换机了。
由于手头没有其他空闲的交换机可以使用,笔者只好将那台故障交换机电源暂时断开,预备向领导汇报之后购买回新的交换机再说。趁那些工作站不能上网的间隙,笔者打算对所有工作站进行一下病毒“绞杀”操作,以便让它们以全新的面貌迎接新交换机的到来。在经过漫长一段时间的病毒查杀之后,笔者果然发现网络中的确存在不少病毒,偶然之间笔者看到其中一个比较熟悉,到网上查阅该病毒的相关资料时,发现该病毒能够造成广播风暴;于是笔者心中忽然想出这样一个念头,会不会是广播风暴导致那台故障交换机频繁发生瘫痪现象呢?现在病毒已经被全部被清除了,那台故障交换机会不会还出现瘫痪现象呢?抱着试一试的心态,笔者重新接通了那台故障交换机的电源,刚开始交换机的运行状态很正常,但笔者担心时间一长交换机又会继续“瘫痪”,于是特地在交换机旁呆了半个多小时,以便及时观察交换机运行状态的变化,可是半个多小时过去了,交换机控制面板中的信号灯状态仍然一切正常,笔者此时有一种直觉认为交换机的瘫痪现象不会再发生了,果然当笔者第二天再次来到培训中心机房时,看到那台故障交换机信号灯一切正常而且始终保持稳定状态,至此交换机瘫痪现象得到了彻底解决。
故障总结
虽然交换机瘫痪的故障现象被排除了,但笔者心中仍然存在一些迷惑,既然网络病毒引起了广播风暴现象,为什么另外一台型号相同、连接方式也相同的交换机不发生瘫痪现象,惟独只有其中的一台交换机发生瘫痪现象呢?后来笔者将自己心中的迷惑告诉培训中心的另外一位老师时,那位老师提醒笔者说,那两台交换机肯定有不同之处,不然的话不应该发生一台有故障、另外一台没有故障的现象;经过这位老师的一提醒,笔者仔细对那两台次级交换机进行了对比观察,发现它们的新旧程度不同,后来询问其他同事证实这两台交换机虽然型号相同,但其中一台是以前买的,另外一台是最近改造局域网时才买的。根据这种不同之处,笔者认为先买的交换机由于服务时间相对较长,它的自身性能可能出现老化现象,一旦网络中出现广播风暴的话,很轻易发生交换机缓存溢出现象而导致瘫痪,另外一台交换机由于刚刚才开始使用,它的自身性能足以反抗网络病毒的袭击,这样一来这台新交换机也就不轻易发生瘫痪现象了。
总结上面的故障排除过程,笔者认为要想确保局域网始终能够稳定、高效地运行,必须在组网之前挑选自身性能好、缓存容量大的交换机产品,以便提高交换机自身的抗干扰能力。另外,为了尽可能地避免网络发生广播风暴现象,我们应该在网络中的每台计算机中安装杀毒软件,并定期执行清除病毒操作。
排除经验
在长时间、高负荷地运行之后,网络中的交换机往往会不可避免地出现各种各样的故障现象,那碰到故障现象时假如都毫无头绪地随意排查的话,故障解决效率肯定不会很高。事实上,我们只要把握了合理的故障排除顺序,完全能够有效地提高故障排除效率;一般来说,当交换机碰到故障现象时,我们可以尝试按照下面的顺序进行逐一排查:
首先按照由远到近的线路连接顺序进行排查,因为交换机存在的多数故障往往都是通过与其直接相连的工作站而发现的,所以我们在排查故障时尽可能地按照“终端工作站-连接线缆-端口模块-网络跳线-交换机”这样的顺序依次检查。
按照上面的顺序排查之后,假如确认交换机的确存在故障的话,那我们接着就要按照由外而内的顺序来检查交换机设备了。我们不妨先从交换机控制面板中的各种信号灯来辨别,并依照信号灯的故障指示,检查交换机内部对应部件是否发生了故障。例如,交换机的Link信号灯要是处于熄灭状态,那就表明对应端口没有连接好或者该端口存在问题,要是Link信号灯处于绿色闪烁状态,那就表示交换机当前处于100 Mb/s数据传输状态,要是Link信号灯处于黄色闪烁状态,那就说明交换机此刻正处于10 Mb/s数据传输状态;要是交换机的Power信号灯处于绿色常亮状态,那就表示交换机的电源供给一切正常,要是处于熄灭状态就说明没有电源供给。
当确认交换机内部存在故障时,我们肯定不会轻易地动手去拆卸交换机,因此在检查内部故障时,我们应该先从系统程序或参数配置上着手来排查。要是参数配置或系统程序没有问题的话,那几乎就能断定是硬件有问题了。比方说,某个端口不能正常使用时,那我们不妨先检查一下指定工作站所连的端口是否在对应的VLAN中,或者检查一下指定端口是否已经被其他的治理员关闭掉了等。
当然,在实际排查交换机故障的过程中,我们经常会碰到一些相当复杂的故障,此时我们尽量按照先易后难的顺序,来从系统配置或简单操作下手,来逐步分析、排查故障,相信这样能够提高故障的解决速度和故障排除效率。