随着网络病毒的泛滥,以及用户设备的转发特征,大量的病毒和异常包会导致cpu需要做大量的三层查表,cpu利用率过高,甚至达到100%,设备当机整个网络瘫痪。
我就实际工作的经验,介绍下碰到上述情况的快速解决方法,可以适用于大多数网络设备和结构上。
基本解决方法:
1. cpu利用率过高导致所有用户无法上网,设备已经当机。
首先保证大多数用户可以上网。
在此情况下,观察端口指示灯闪烁频率特别高的端口可以先将其拨除,等待大概五分钟左右,观察cpu利用率是否下降。或者重启路由器后拔除线缆。
(注:此时拨掉线路的用户将掉线)
同时检查下级设备上面端口指示灯状态,将最下级设备接口不正常端口拨除,插上核心设备上面连线。
如果在下级机房设备有人值首话,可以直接拨除下级设备线路。
2.查找具体原因
根据大家的习惯,可以采用两种方法:
1)
适用设备命令查找问题员原因,特别是在给于flow转发机制的核心设备上面,观察大量流量的来源。或使用log,flow进行分析。
注:过段时间我会提供一个流量分析系统的demo版给大家,可以看到怎么判断问题,非常直观。
2)通过协议分析,如sniffer软件
(非常直观简单的方法)
将不正常端口做端口映射到笔记本上,打开sniffer并且扑捉流量,观察matrix图,将有不正常连接数ip地址记录下来。
3.解决方法
首先通过认证计费系统将用户查找出来。(可以电话联系用户,要求用户将对机器进行杀毒或直接在交换机上禁止。
故障防止办法(参考):
1.建完善的网络架构,核心、汇聚。了解网络病毒趋势,对设备设置进行升级。
2.使用flow分析系统,对网络流量进行实时跟踪,但出现有病毒,和网络攻击时,可以实时观察到,提前解决,避免问题扩散。
如果是广播包过多引起的话,大家可以多使用设备命令。
希望通过上面的方法,能够帮助大家在最短的时间内找到问题所在,并对此作出解决方法。