光电转换器常见问题分析—网络物理安全辨误
本文出自《网管员世界》2003年第4期“故障诊断”栏目
影响网络链路传输的多种因素
一条计算机网络的数据链路可以承载各种各样的数据应用,不同的应用对数据链路传输质量的要求是有区别的。如果一条双绞线链路的工作环境存在大量高强度的电磁干扰和噪声,那么会有什么现象出现呢?这条链路上的用户可能会抱怨网络速度很慢,严重时甚至根本就不能上网。有经验的工程师都知道,多数情况下,这种类似噪声的干扰信号并不是来自链路之外,而是来自于链路本身—比如近端串扰NEXT。
在网络链路的传输品质要求中,对双绞线和光纤的传输误码率都有具体的数量规定。对于双绞线,如果电缆超长,则信号在整个的传输过程中衰减会过大,网卡或交换机端口收到的信号能量(或信号幅度)就会偏小,电缆中的热噪声和外界环境中的电磁辐射干扰就很容易导致信噪比减小,链路中的信号传输误码率增加,链路传输性能下降,数据包错误率和丢包率均会上升。而且,不同用户对应的故障现象虽然相似,但程度会有区别。一般会感到尽管链路流量不高,但速度却很慢。同样,如果光缆过长或是因为其他原因(比如接插头质量原因)导致衰减过大,则也会使传输的数据包出错,用户反映速度问题的抱怨会随之增加。
以上只是导致链路误码率增加的最基本的原因之一,而影响电缆和光缆传输性能下降和误码率增加的原因是多种多样的,远不止衰减和外来电磁波的干扰这几项。以双绞线为例,除了电缆本身的热噪声和外界辐射进入的电磁噪声外,还有来自电缆链路本身的诸多影响因素——要知道,衡量一条六类链路是否合格,其认证测试验收报告上载明的测试结果就有20个之多。
首先,我们经常需要考虑的就是线间串扰问题。双绞线电缆由多对双绞线缠绕包覆在一根软塑料管中构成,工作时每对双绞线传输的信号会感应到相邻的双绞线对上。不过,由于采取了双绞结构等去除感应的措施,线间串扰在电缆中不会很大。但在接插模块处就不一样了,接插模块处一般不是双绞结构,比如水晶头中的导电金属片就是平行排列的,所以此处的线对间信号感应是很大的,此处同时也是外界电磁干扰信号的一个重要侵入口。屏蔽线可以减少外界电磁干扰(EMI),双重屏蔽双绞线还能屏蔽线对间的感应,对网络物理链路的信息传输安全有较好保证作用。不过,这种电缆在接插模块处仍然是一个防护弱点,对于克服线间串扰(通常就用近端串扰这个参数来描述)的影响贡献不明显。
另外一个影响因素就是链路的阻抗连续性问题。纯电缆段中的阻抗连续性尚可,但在接插模块处连续性一般都很差,信号能量在阻抗不连续处会发生反射,导致有用信号的衰减增大。反射的信号能量一方面会回到发信端,并被位于发信端的并行的接收端口作为(干扰)信号接收;另一方面,反射信号还会再次通过线间感应机制干扰其它线对信号的正常传输。有时反射的信号甚至会在短链路中多次反射从而造成多个方向和多条线对的信号传输质量恶化。现场认证测试标准(比如TIA568B)中经常会用回波损耗(RL)和衰减这两项来间接地衡量阻抗连续性的性能。
光纤链路的介质连续性是影响信号传输的又一个重要因素。在光纤链路中人们通常会非常重视光纤的长度和衰减值是否符合要求,这是非常重要的考核参数。但常被忽视的介质连续性差(比如接插头质量差或数量过多)的问题却会给网络维护人员带来意想不到的麻烦。在某种条件下,介质连续性差的链路会形成较强的信号多次强反射,从而破坏原光纤的光脉冲信号的波形,这相当于减少了光纤链路的传输信噪比,使数据传输误码率上升,从而导致传输的数据包出错。
当然,采用光纤链路通常都能将电缆链路在长度上应用的局限性得到很大改善,局域网中经常在以太网电缆距离不足时使用光模块或光电转换器延伸服务距离,使用的数量增加很快。此外,采用光纤链路的另一个最大好处就是物理安全性得以提高。
本篇我们仅限于讨论光电转换器在传输通道中使用时经常出现的几个常见问题。
示例一:接头脏污造成的影响
某系统集成公司为用户进行设备调试时,发现主楼里面的150个用户使用网络上网浏览外部网页和本地服务器网页时正常,但附楼中的一座有问题。附楼共有四座,其中的一座附楼有55个用户,在设备的试用期用户报告浏览网页时速度很慢,而在本楼中的用户之间传递文件速度正常,与主楼中的服务器传递文件时速度虽较慢,但还基本能“忍受”。附楼和主楼之间用光纤进行连接,四座附楼中的二级交换机分别和主楼的一台核心交换机相连。其中,有问题的附楼和主楼之间是用183米的多模光纤连接起来的,其间使用了100M的光电转换器。
原先怀疑是附楼和主楼之间的流量过大,观察端口流量只有15%左右,应该不是因为流量过大发生拥堵所致。后来怀疑光纤可能有问题,调试人员对主楼和附楼之间光纤进行了测试,衰减量为0.7dB,符合要求。推断有可能是交换机上的光模块有问题,分别试着更换了光模块,但现象依旧。安装人员分析,如果光纤没有问题,光模块没有问题,那就是交换机本身有问题了。
分别用主楼的其它交换机和其它附楼的交换机做替换试验,还是不解决问题。安装人员听朋友介绍可能是因为光纤插头脏了,随即借来清洁工具仔细清洗了这条链路中的所有插头,用电吹风吹干后重新恢复连接。结果,速度虽然有所改善但并不十分理想。至此,安装人员感到有些束手无策、无从下手了。
183米的衰减(0.7dB)对于一般的光模块而言,无论是发射端口还是接收端口,其功率容量和灵敏度都是富富有余的。我们先用网络综合分析仪OptiView从主楼向附楼发送1,000,000个长度为1518字节的IP包,在附楼用网络万用表Net Tool串入链路检测,结果收到的IP包一共有990,000个,丢失率为1%。为了确定数据包出错的具体位置,我们用一支光三通串入光链路中做直接测试,光三通的监测口上用另一台OptiView连接做单向检测,结果收到的IP包为100%,没有丢包计数。而网络万用表收到的数据包仍然是990,000个,保持不变。由此可以基本确定数据出错端在靠近附楼的一侧交换机附近。由于光三通本身有4dB左右的衰减量,所以应该不是光信号饱和而诱发的问题,否则加入光三通后故障现象就会消失。
将收发光纤对调位置,再次进行测试,结果数据错误有所增加,丢包率增加为1.5%。根据以往经验,此类故障多数是光纤链路上有较大的不连续点。用专用清洁工具将光纤配线架上的插座进行仔细清洗后重新连接链路,用户即刻反映速度恢复正常。测试丢包率,结果显示为零。
本例是由于光纤链路接插模块不清洁造成的。接头脏污造成的影响有时候比较复杂,除了增加衰减量外,与不同质量和长度的跳线结合对原光纤链路中的光信号具有不同程度的破坏作用。观察发现,短的光纤链路易受脏污的影响,链路越长则影响只限于衰减可能引起的信号减弱,数据出错率一般会在0.03%以下。由于安装人员只清洗过光纤插头,而没有同时将光配线架上的插座一同进行清洗,遗漏了引起数据出错的其它因素,使得故障诊断工作无法进行下去。
示例二:劣质的电缆跳线
某校园网,图书馆子网络的升级改造完工,前三天为试运行阶段。除了查询图书馆内的资料外,学生反映无论是访问学校的网络资源还是科教网上的资源都很慢。同时出问题的还有实验室的网络(也是升级工程之一)。校园中其它位置的计算机上网都正常,所以推断是升级工程存在问题。
图书馆与计算机中心之间的光纤长度为210米,实验室为197米。为了降低成本,该光纤链路采用的是光电转换的联接方式,即是把计算机中心交换机上用来连接图书馆和实验室的100Base-T以太网端口经过光电转换器后用光纤将信号传输到210/197米外的图书馆和实验室,图书馆和实验室的光电转换器又各自重新将信号转换成电信号(100Base-T)后与图书馆和实验室的工作组交换机级联。这种方案的特点是成本比较低,比较适合于双绞线电缆长度超过100米的骨干链路。使用国产的光电转换器每条链路的价格可以控制在600-900元以内。光电转换会稍许增加传输时延,但对用户而言一般不会有任何影响。
维护人员测试了图书馆和实验室光纤链路的衰减量,符合要求。怀疑光电转换器可能存在质量问题,试着更换了一对光电转换器,这时实验室网段的用户立刻恢复正常,但图书馆用户的访问速度还是很慢。其它子网使用的也是同样类型的光电转换器,工作状况都正常。维护人员手里除了一只光表外没有其它任何相应的维护工具,所以只能采取对比和替换的方法来孤立故障。
用一台笔记本电脑直接连接到计算机中心的交换机端口上(该端口连接到图书馆)访问校内和校外的网络资源,速度非常快。从该端口拷贝相邻的其它服务器上的文件,速度依然正常。这说明交换机工作很正常,问题仍然出在光链路及相关器件上。光电转换器已经更换过,所以问题很可能出在两个光电转换器之间的光纤链路或是连接光电转换器的电缆及其转换接口上。
我们使用随身携带得OptiView网络综合分析仪从交换机端口发送90Mbps的数据流穿过光纤链路,同时测试位于计算机中心一侧的光三通监测口的信号强度,观测到的信号平均数值为-15dBm,推断发射端口的信号强度为-15+3.1+4=-8.1dBm,同样在接收端口用同样的方法测试收到的信号强度推断值为-9dB,查接收模块灵敏度范围为-4dB~-28dB,所以信号传输应该没有问题。用另一台OptiView在光三通上检测出错或丢失的数据包,结果两端的错误率都在9%左右,这也证明光纤链路也没有问题。
惟一没有检查的就是与电接口连接的电缆。试着用随身备用的合格的2米跳线分别更换光电转换器两端的设备跳线,当更换核心交换机上的跳线后,网络速度很快恢复正常。
最后,我们用电缆分析仪DSP-4300附带的跳线测试模块对更换下来的跳线进行测试,以便验证是否真的是因为跳线问题而引发了本次故障。结果,其近端串扰参数(NEXT)为-7dB,这样的跳线用在100Bbps的以太网光纤链路上显然是不合格的。
本例故障是由于使用了劣质的电缆跳线致使信号误码率上升所至。在相同的误码率前提下,不同的应用协议受影响的程度也是不同的,所以用户在访问网页和传输文件对速度的主观感觉会有区别。由于用户使用的是价格便宜的光电转换器,在转换信号时只是整形变换,不做错误判别,所以从光纤链路上可以监测到错误的数据包,其中多数为FCS类型的错误。
示例三:光纤转换器中的不匹配状态
某市政府信息中心,按设计规划将政务网站直接设置在政府大院内的信息中心。网页内容由位于另一座办公楼的专门的信息小组负责提供编辑和上载更新服务。两者之间互连的链路是一条光纤,总长度约180米左右。这条光纤虽然不长,但它的安装调试过程却足可以写入系统集成商的经典教材之中。
事情的经过是这样的。综合布线系统经过认证测试后开始进入设备安装和调试阶段。系统集成商在光纤两端的交换机安装好后进行了连通性测试,起初两天速度感觉稍慢,但经主观评价后认为,总的表现还过得去。从第三天开始,出现了编辑中心无法与内容服务器连通的现象,Ping测试丢包率在93%以上,响应时间本地服务器为1ms、城域热线网站在30ms以内。替换光电转换器,无效。清洗光纤插头/插座,仍无改善。由于手中没有测试工具,只能试验性地更换设备和器件。当更换光配线架上的一段二次光跳线时,网络速度开始回复到两天前的状态:速度虽较慢,且Ping响应时间不变,但丢包率下降到10%~20%!
分别换用其他部位的交换机来替换两端的交换机,结果性能并没有明显改变。安装人员开始怀疑选用的这批光电转换器可能存在产品质量问题。更换其它牌子的转换器做试验,现象依旧,至使调试工作无法再进行下去。
我们赶到现场后,首先测试了一下发射和接收端的光强度(推算值),结果如下:发射功率0dBm,接收功率-1.7dBm。查阅光电转换器手册,接收模块的工作范围是-4dBm~28dBm。很明显,使用的光电转换器误用为大功率长距离型号,这对于短距离使用有可能造成接收模块的饱和过载,使得丢包率上升甚至造成无法工作,长时间连接还可能使接收模块损坏,接收端口烧毁。用光纤显微镜观察被更换下来的跳线,结果发现是一根混杂进来的单模光纤跳线。这说明第二天调试时有安装人员有意无意地更换过设备跳线,误将一根单模光纤跳线与设备连接起来。我们重新将这根跳线接入链路,结果引发了此故障现象的再现,用光功率表测试接收功率竟然是-8.7dBm!,也就是说,此光纤条纤的衰减达到了-8dB。
改用OptiFiber光纤认证测试仪测试这条链路,可以非常清楚地在测试屏幕上看到,这段两米长的跳线两端有较强的光信号反射峰值,跳线处的推断回波斜率与原多模光纤偏离相当大。查产品手册,我们选用了一款小功率的光电转换器来替换原来的型号,试验结果显示链路性能又有进一步提高。但是,现在仍然还存在的问题是:无法消除那10%~15%左右的丢包率。因此,接下来需要进一步检查链路中的所有构成元素。
首先,检查并测试电缆跳线——符合要求。然后用网络万用表串入跳线检测丢包率和错误,结果网络万用表意外地发现交换机一侧为全双工,而另一侧为半双工状态!半双工/全双工状态的不匹配会造成典型的速度慢症状,但Ping测试响应时间很短,存在丢包现象。这是在电缆链路中相对来讲比较常见的问题,但在光电转换器链路中却很少遇到。
重新配置交换机端口,使其稳定地工作在全双工状态,故障彻底排除。