进入21世纪,积极推进数据大集中是国内银行业的一项重大举措,目的是实现银行集约化管理,降低经营风险。然而,数据大集中就像是将全世界的桥梁都整合成一座桥梁一样,它在方便银行经营管理的同时,也给银行的IT运维提出了巨大的挑战。一方面数据中心集中了几乎所有的应用和系统,技术复杂度和关联度今非昔比;另一方面运维人员的高度集中和专业化也带来了运维管理的高度复杂性。
虽然这些年银行在安全设备的应用上越来越多,安全手段的采用也越来越多,但安全状况却不见好转。一些银行的IT管理人员经常纳闷:我们已经在安全方面投入了相当多的努力,但为什么还不时出现安全问题?面对众多的设备与手段,IT运维人员有时候感到无所适从,其根源是什么呢?展望 2009年,IT运维的下一步应该怎么走?
以管理为核心
大家知道,安全不仅仅是一个技术问题,更是一个管理问题。实际上,在整个IT产品的生命周期中,运营阶段占了整个时间和成本的70%~80%左右的比重,剩下的时间和成本才是花费在产品开发上面。我们常说“三分技术、七分管理”,这是突出管理的重要性。
那么,系统运维如何做?首先要在银行的组织结构里面成立一个专门的部门,组建最高的信息科技管理委员会,而且这种委员会应该是银行全面风险管理的一部分,能够覆盖全行的所有风险管理。事实上,信息风险或者运维不只是科技部门的事。科技部门更多是根据国际标准、国家标准、行业惯例,去做一些规范的制度等。也就是说,科技部门只是运动员,它的裁判应是银行的最高信息科技管理委员会,科技部根据这个委员会的指导执行一些具体的工作。
其次,做好运维还要有一系列的制度、流程、标准,在制度里首先要发现你自己存在的问题,这不仅仅是科技本身,根据这些问题制定详细的操作规范。而标准是安全运维的标杆,有了这个标杆,安全运维做起来就会比较规范,也容易达到统一的制度要求。在此基础上,再设计具体的流程,尽可能做到制度的规范化和标准化,进而实现标准流程化。
事实上,银行的数据大集中不仅集中了数据,也集中了管理。因此,在运行安全建设上管理一定要做到细致,因为数据集中后所有的技术都集约化了,因此管理也要实现集约化,不能只是技术已经集约化了,而管理还没有集约化。
现在的银行业面临着巨大的运维风险,而且人人都知道这个风险是存在的,但遗憾的是,一些银行在运维管理上却不是以控制风险、减少风险、预见风险的管理模式去进行运维管理,这是一件十分可怕的事情。其实,运维体系的建设有很多种方法,包括一些国际上成熟的理论和标准,关键在于领导的意识和管理的执行力度。另外,运维不是说投入了多大的人力、物力就能保证不出事,核心在于怎么样能够使之变成有效。
运维流程自动化
2006年,针对国内银行业当前的安全运维管理现状,中国人民银行出台了《关于加强银行业金融机构信息安全的通知》,通知提出了银行可以借鉴国际上成熟的运维管理方法的指导意见。目的是希望银行通过在运行中心应用这些IT工具实现运维管理的自动化,进而提高运维管理的高效性,减少运维安全事故的发生。
事实上,技术本身会带来一些管理制度的要求,安全运维的建立需要有制度保障,才能保证技术落到实处,这就是所谓制度靠工具来实现。目前有的银行已经开始运用国际上成熟的自动化监控手段,对整个运维中心的系统、设备进行监测、防护,并结合ITIL的运用更好地实现运维效率的提升。
除了安全监控,建立安全的审计制度也是必须的,因为要保证系统运行安全,从制度上还要制定严格的制度规范和流程。目前银行的安全审计制度还很不完善,有的根本没有建立起来。
当然,一上来就搞一个很大的自动化监控手段没有这个必要,要根据各自的实际情况来做。这里面,重点要看运行,运行实现以后,要用流程来保证,不一定非要用很多技术的东西。没有制度流程做保证运维是很难做好的。
现在随着运维管理工作的复杂度和难度的大大增加,仅靠过去几个“运维英雄”或“技术大拿”来包打天下已经行不通了,一些银行开始考虑运用专业化、标准化和流程化的手段,来实现运维中心的自动化管理。
所谓运维管理的自动化就是通过将日常IT运维中大量的重复性工作自动化,小到简单的日常检查、配置变更和软件安装,大到整个变更流程的组织调度,都可以由过去的手工执行转为自动化操作,从而减少乃至消除大多数运维中的种种延迟,实现“零延时”的数据中心运维。
据悉,目前银行的运维管理绝大多数工作都是手工操作。一个简单的变更往往需要操作员逐一登录每台设备进行手工变更,当设备数量达至成百上千时,其工作量之大可想而知。而这样的变更和检查操作在数据中心中往往每天都在进行,占用了大量的运维资源。因此,实现运维管理工作的自动化对银行来说已迫在眉睫。(北京银行信息技术部副总经理 龚伟华)