随着国都证券网上交易系统功能的增加,系统对运行环境的要求也水涨船高,但目前系统的整体性能却不降反升。在这背后,系统容错工程的实施方案几易其稿,体现出雕琢之美。
自从2005年1月,国都证券公司的网上交易的容错系统上线以来,李悦发现客户的投诉电话明显减少。身为国都证券网上交易业务的主要负责人,李悦经常要为用户能否在网上看到股票行情,能否顺利交易而牵挂。而在以前,网上交易的业务部门也会接到用户的投诉电话,有些投诉对接线员的技术背景要求颇高,不懂点网络、不了解交易系统还真回答不好。现在,李悦不用为这些事而担心了,“只要用户能够接入我们的网上交易系统,就能安全、稳定地使用,中间不会出问题,这也给我们业务人员减压了。”
目前,国都证券网上交易的开户数量已经提高到开户总数的37%,交易额占总量的40%,用户对网上交易系统的依赖程度提高。同时,随着国都证券网上交易系统版本的升级、新系统功能的增加,系统对运行环境的要求也水涨船高,但从速度、安全、稳定性几个方面,国都证券的用户却感到比以前更好了。在这背后,网上交易系统容错工程的实施功不可没。
扩容
“在交易并发量猛增的情况下,扩容是最先想到的方案。”
变化的契机发生于2003年,国都证券在2003年经历了一个过渡时期,证券行业大集中的热潮席卷,国都证券也涉足其中,并于2003年初完成了部分营业部交易系统的物理集中,每台服务器还是为原来的营业部工作。与此同时,证券市场从2001年开始的连续下跌中,在2003年初迎来了一波不错的反弹行情,致使开户数和交易量急剧上升,国都证券电脑中心总经理俞继东谈到:“集中后,并发量急剧上升,经测试可达400笔以上,而当时的系统在超过200笔时速度就会出现滑落。”
李悦: “遇到那一波行情时,系统的单点故障明显提高,瓶颈就出现了,我们开始寻找解决办法,用来提高系统的整体稳定性。”
均衡
“简单地增加硬件不能改善系统的运行维护水准,还会带来压力。”
交易并发量增加,那就增加硬件设备,这是一个直线型的思维,但如果综合考虑,就会有不同的结论。国都证券负责相关项目的技术骨干王大东认为:“业务部门提出扩容的要求,技术部门也有自己的想法,主要就是增加系统的健康程度,减少维护的复杂度。”
硬件设备多了,运维的问题会越来越复杂。据一些咨询公司的调查,人为差错占到整体系统差错的60%,运维的出错率随系统的复杂性而提高。国都证券在大集中初期也面临着这样的问题,维护人员要管理多台不同类型的设备,运维的压力让人呼吸急促。俞继东谈到:“经过多方讨论,我们认为简单地增加硬件扩容不是一个好办法,负载均衡的思路逐渐被我们认可。”
增加系统的吞吐能力和稳定性,简化系统的配置,这是国都证券的着眼点。负载均衡可以共享设备,提高设备的使用效率,基于负载均衡的健康检查机制还可以保证系统的稳定性,负载均衡似乎是一个令人满意的解决方案。
隐患
“过于看重均衡这两个字,可能出现更大的问题。”
故事原本可以结束了,但负载均衡的隐患让国都证券的技术人员高兴不起来。
“均衡设备的最大的障碍是健康检查的局限,不能发现应用层的问题,例如原来是两台服务器,一个服务器坏了只影响一个地方的使用,使用负载均衡后,两个服务器被一起管理,现在如果应用层发生问题,会影响两个设备及相关的业务,而应用层出现问题的可能性很大,例如软件BUG,人为操作失误,一旦出问题影响更大,” 俞继东这样解释他们的隐忧。
负载均衡设备的不足是做不到对应用层的管理,但对整个网上交易系统而言,只有网络层和服务器的管理是不够的,交易用户可不会管到底是哪个地方出了问题,只要影响了交易就会投诉。
容错
“我们需要的是应用系统整体上的稳定和效率,最后把容错作为目标。”
容错并不是一个新概念,国都证券强调的容错是应用系统的整体容错。俞继东说:“我们认为容错有三个层次,一是通信线路的容错,二是系统层的容错,包括服务器和操作系统,这两层都可以通过硬件实现,也相对简单。第三层就是应用层的容错,只能靠软件来实现。”
国都证券的网上交易系统是一个典型的三层结构,用户从终端访问到网上交易的委托服务器后,还要通过交易中间件和数据库这两个环节。一个完整的网上交易过程是串行的,其中一个环节中断,应用就不能实现。
针对硬件无法实现对委托服务器后面的所有交易过程的管理,国都证券提出了开发侦测软件的需求。意在通过该软件来模拟交易过程,实现了对网上交易完整业务逻辑的操作和侦测,结合负载均衡设备的端口管理功能,来判定应用层的系统是否可用,达到及时控制交易流程、及时切换设备,从而保证了系统在应用层容错的目标。
起点
“技术应用的源动力是业务需求,加上技术人员的追求完美,两个合力产生了最后的方案。”
经过几个轮次的提升,国都证券的网上交易系统实现了从网络层、系统层到应用层的全面、全流程的容错。与此同时,系统还实现了北京和上海两地的网络互为备份,以及广域网的负载均衡,并符合中国证监会网上交易保留访问地址的规定。俞继东说:“技术应用的乐趣在于能够不断地发现应用中的问题,并且能够以最佳的方案来解决这些问题。”
据了解,得益于在网上交易容错系统中的经验,国都证券下一步将着眼于灾难备份系统的建立,以及进一步提高交易中间件的效率。对于国都证券的信息化而言,又将迎来一个新的起点。
国都证券网上交易容错系统
需求特点:保证网上交易系统在遇到大并发量的情况下,能够稳定地运行,实现从网络层、系统层到应用层的容错,同时希望能够减轻运维人员的压力。
选型原则:符合交易系统整体容错的需求。
选型方案:结合负载均衡硬件和网上交易系统软件提供全面容错方案。
实施效果:网上交易系统运行的稳定性和速度提高,运维人员的工作量减少,实现了应用系统的整体容错,业务部门接到的投诉电话明显减少。