随着银行数据集中以及各个数据集中处理中心的建立,计算机系统稳定运行的重要性也日益突出。大集中意味着数据集中和业务处理的集中,而数据和业务处理的集中将导致风险的集中,任何管理风险、技术风险,以及自然灾害造成的风险都会危及系统的运行,因而对银行管理大型数据中心的能力、技术保障的能力、运行操作的能力都提出了严峻挑战。目前,国内银行在IT方面面临的最大挑战就是如何确保IT系统的稳定和安全。以前,交易不成功可以靠人工来补救,而现在提倡刷卡消费、网上购物,任何IT系统的中断都会导致一场危机。
海量的业务和数据处理
工行在单个生产数据中心处理能力方面达到了全球最高水平,每天上亿条的业务量通过生产数据中心的大型机系统进行高效、不间断的处理。五年前工行完成了基于大型机平台的全行数据大集中,为未来业务量的发展提供了灵活的横向和纵向扩展空间。
工行和许多大型银行一样采用了大型机系统处理其最核心的交易和数据,这是由于在银行应用方面,大型机具备其他平台不具备的特性:首先,银行对业务连续性的要求非常高,IBM大型机在保障系统高可用和高可靠性方面有非常显著的优势;其次,银行业务要求实时处理数据,交易的并发性、吞吐量需求很大,大型机能够保障实时系统响应和业务高峰时稳定的系统性能;第三,银行对数据及系统安全的要求很高,大型机专有的操作系统和通信协议能够保障数据和交易的安全,而其他平台则需要时刻面对系统遭遇攻击的挑战; 第四,大型机是建立绿色数据中心的重要角色,大型机的虚拟化技术能够使内存、CPU等系统资源得到最大利用,大型机在场地、能源和日常维护成本方面与其他平台相比,有非常大的优势。
高水平的风险控制
在国内银行业中,工行的风险控制和防范处于领先的地位。工行开启了国内银行业数据大集中和灾难备份的先河。早在9.11事件之前,即在开始数据大集中工程的时候,工行就开始了灾备规划和建设,因为数据集中也就意味着风险集中。到2003年,工行核心业务系统的灾备系统已经建成且近几年来一直不断完善。目前业务的连续性规划已经基本覆盖全行所有业务,并根据业务的关键性制定了不同的灾备等级,体现出非常有效的运行服务管理水平。
目前,工行建成的灾难备份体系是本地数据实时备份,异地灾难备份,在北京和上海两个数据中心之间建立灾备体系。上海本地数据中心采用IBM大型机的GDPS/PPRC/HyperSwap技术进行计划内磁盘维护和计划外磁盘故障的秒级无缝业务接管。北京和上海数据中心之间采用IBM大型机的GDPS/XRC技术进行数据远程实时复制。当上海数据中心发生场地级灾难时,北京数据中心能够在两个小时内接管生产,数据丢失小于两分钟,即实现灾备等级的RPO小于两分钟,RTO小于两小时的技术指标。
在灾备中心建设方面,大型机灵活的资源调配特性使灾备中心的资源和测试中心的资源实现复用。平时,大型机用于测试,灾难发生时则能够立即用于接管生产。这些技术和方案在其他平台上是难以实现的。