最近公司做的一个工程,用了两台Catalyst 8540 MSR, 五台 8510MSR, 都是ATM交换机。一位同事花了大约个月的时间来调试安装及测试这些机器。就在验收前夕,8510纷纷当机,其中一台有一天是隔一小时当一下,共当了三次,真是急死人。同时,还有一些丢包,回应时间长的现象。
这些交换机配置相似,都是用ATM LANE配一个ELAN做路由主干网,本地的以太子网则通过绑成桥接组的以太网端口路由出去。建网之初嘛,应用很少,一个是Internet的出口,接在一台8510上;还有一个多播的视频监控,路径是从一台8510到8540_2 到位于网络中心的8540_1.
后来在一台当机的8510上观察到一个AAL 5 Buffers 用尽的报告。
经过查询,我们在cisco网站上查到一个Bug的记录:
CSCdm32706: Large bridge group configurations with IRB lead to AAL5 buffer exhaustion.
Symptom: When a large number of bridge groups or bridge group members are configured and IRB is enabled on the devices, reloading one of the devices or configurations may lead to high CPU utilization. The side effect of this is temporary spanning tree loops, leading to AAL5 buffer exhaustion problems.
Workaround: In this case, if IRB is enabled, you may need to increase the number of buffers on the device using the aal5 buffers command.
使用show buffers 可以看到big 和verybig的Buffers没有空闲的了。于是我们尝试加大AAL5缓冲区的个数。命令是AAL5 buffers big 400 ... 一边加一边观察。这位同事太心急了,一下加得太大,我在另外一个终端上用Show memory观察,忽然看到内存只有4K 是空闲的了!还没来得及提醒他,机器已经当了,而且不能启动,说“内存不足”。
查了文档,用类似于密码恢复的办法,把寄存器值设为0x2142,让机器以忽略配置文件的方法启动,然后终于改正了这个错误。
但是,仍有一台8510保持了每天至少当机一次的习惯,所以不得不要请本文的主角,Cisco 上海办事处的CCIE刘军出场了。
刘军似乎只需要知道他问的问题的直接答案就可以了。比如说,你们有一台8510自检红灯对吧?我们说:对。刚想告诉他这台8510状态灯为红,而且自检时两个GE模块反应超时...他打住我们,说:我知道了。8410是1010的简单的翻版,我们用得少,基本上用8540比较多。8510这个自检其实是微代码写得不好,等待的时间根本不够。ATM交换机前景不好,6509出来之后用得都少了。现在cisco裁员嘛,这个开发组也紧张...
对于8510的当机问题,他认为是8510对LANE的支持不太好,尤其是ARM64路由模块。最好扬长避短,改成用虚电路的方法。于是在几个小时之内,整个网络的配置全部改掉了,其本上都利用原来用LANE建立起来的连接,Telnet就配好了,只有一台需要到现场配。
! 8540
interface ATM1/0/0.3 multipoint
ip address 169.169.11.1 255.255.255.0
no ip redirects
no ip directed-broadcast
ip ospf network point-to-multipoint
map-group allpvc
atm pvc 2 100 pd on interface ATM0/1/1 0 100
!
map-list allpvcs
ip 169.169.11.3 atm-vc 100 broadcast
! 8510
interface ATM0/0/0.1 multipoint
ip address 169.169.11.3 255.255.255.0
no ip directed-broadcast
ip ospf network point-to-multipoint
map-group pvcs
interface ATM1/0/0
atm pvc 0 100 pd on interface ATM0/0/0.1 2 100
!
map-list pvcs
ip 169.169.11.1 atm-vc 120 broadcast
然而有一台2924+2971ATM上联模块,他也没想明白该怎么配,但必须走了。惨哪,于是我和同事试来试去,一直都试不出来。升级atm模块的软件又碰上问题。
升级atm模块的软件是在2924上操作,copy tftp: slot1:boot, 升级之后启动就不正常,session 1进不了了。用命令 hw slot 1 maintain , hw slot 1 restart, 有时在2924上都看不到slot1:文件系统,atm模块指示灯和atm 上联端口的指示灯也是一次和一次不同。最后把2924整个重启,备份后把slot1:文件系统format 掉,再把文件传回去,就ok了。版本是12.1.8.
第二天,收到刘军的Email,他在新闻组上问了这个问题,有位高手回应说:我猜你是配成了路由方式,要接2924,应该配成桥接方式。
参考文档配成了桥接。然后路由是个问题,我们发现如果在BVI接口上配IP,网络大受影响,丢包现象又出现了。最后配成用一个端口配IP,然后用交叉线把桥接组端口跳接到这个端口上,一切OK。
附:
! 8540 MSR 配置:
interface ATM1/0/1 (ARM 模块端口,ATM0/1/2是2924上联端口)
no ip address
no ip directed-broadcast
atm pvc 2 140 pd on interface ATM0/1/2 0 140
bridge-group 1
! (交叉线从f2/0/0连到f2/0/1)
interface FastEthernet2/0/0
ip address 169.169.19.254 255.255.252.0
no ip directed-broadcast
!
interface FastEthernet2/0/1
no ip address
no ip directed-broadcast
bridge-group 1
!2924上的2971atm上联模块配置:
interface ATM1
atm pvc 1 0 5 qsaal
atm pvc 2 0 16 ilmi
atm pvc 3 0 140 aal5snap
atm bind pvc vlan 3 1
no atm ilmi-keepalive
no atm address-registration
问题1: ISDN BRI 拔号与 Cisco Secure TACACS+授权的结合方法。目前的配置只要加认证就拔不上,与此同时PSDN的拔号和授权就没问题。