青岛市劳动和社会保障部门容灾系统拓扑图
青岛市劳动和社会保障部门的信息系统目前采用的是全市大集中模式,随着数据集中处理的进一步实施,劳动保障的业务运作、治理模式越来越依靠于计算机系统的可靠运行,各级劳动保障机构所提供服务的连续性以及业务数据的完整性、正确性、有效性,直接关系到社保业务的开展、治理与决策。
在这种情况下,对系统和系统数据的保护成为业务系统安全运行的要害。青岛市劳动和社会保障部门经过评估和分析确定,对系统的核心网络设备、服务器主机、数据库、应用服务等要害的硬件设备、软件应用等进行冗余保护和容灾备份部署。
搭好安全防护网
青岛市劳动和社会保障部门和项目实施方东软软件股份有限公司经过多次讨论和协商决定,容灾系统的实现主要通过对青岛市劳动和社会保障局信息中心运维的后台数据库系统、中间件应用服务器系统、网络系统以及POS系统进行冗余灾难保护。
后台主数据库服务采用Veritas公司的容灾综合套件解决方案。通过Veritas 的VVR动态数据复制功能,实现要害数据的异地灾难备份。通过Veritas的VCS本地集群和GCO远程集群切换技术实现对数据库应用的实时保护。
中间件服务器的灾备分为两部分,数据库部分利用的是Oracle 9i企业版具有的Dataguard远程灾备功能,TUXEDO中间件服务则采用程序的静态移植方法。使用Dataguard功能,通过传递和应用数据库归档日志,可以实现中间件服务器上的Oralce数据库的数据同步。通过拷贝、重新编译和配置将Tuxedo中间件服务移植到灾备主机,可以实现中间件服务的冗余备份。这样,对于主机系统,当单台主机故障时通过本地切换保护,而当信息中心整个系统发生灾难故障时,可切换到远程灾备中心,使业务系统迅速恢复。
网络系统,通过配置在灾备中心相同数量、相同性能和功能的核心网络设备,建设连接灾备中心的广域网备份线路,实现网络系统的灾难备份。当生产中心核心网络设备故障或广域网线路故障时,均可切换到灾备中心,继续为整个业务系统提供网络服务。网络部分除了自身的冗余保护外,还是系统其他部分实现容灾保护的基础,其中包括增设一条从生产中心到灾备中心的专用复制线路,以实现主机要害数据的动态复制。
POS系统,通过在灾备中心配置的相同型号的NAC机、加密机,配合POS应用的后台服务程序的克隆移植实现容灾备份。
灾备中心使用两台相同配置的IBM P650小型机,用作生产中心的两台数据库服务器的灾备主机,保护后台主数据库;一台S7A用作生产中心两台H85中间件服务器的灾备主机,保护中间件服务器上的Tuxedo中间件服务及其数据库。一台EMC CX700的存储服务器(盘阵),用于中心数据的异地动态复制备份。加密机和NAC机以冷备方式提供系统加密和POS接入的容灾保护。华为的网络设备提供与中心的核心路由器和交换机的相同功能,并在发生灾难故障时,由电信线路提供商进行广域网线路切换,实现网络的容灾保护。一旦出现如火灾、爆炸、雷击或线路故障、电源故障、人为破坏等难以抗拒的灾难性故障时,系统可以迅速、及时恢复,提高整个系统的可靠性,使社保系统更好地为市民服务。
安全服务遭遇五重山
青岛市劳动和社会保障部门容灾系统的方案虽然已经确定,但是摆在青岛市劳动和社会保障部门和东软软件股份有限公司面前的问题却是经验少、时间紧、任务重、风险大等5方面难题:
首先,经验少。
没有可以借鉴的成功案例,东软和Veritas公司都缺少可以借鉴的类似成功案例。Veritas公司的容灾全套解决方案主要包括VM、VVR、VCS、GCO几部分,对主机的硬件、操作系统、应用软件等有较高的要求,对存储系统也有非凡的配合要求。项目的实施预备在摸索中进行,也因为如此,项目的实施方案迟迟不能确定,对方案的质疑和求证花费了大量时间。另外,项目中缺少Tuxedo中间件方面的专业人员,对此部分容灾备份系统的实施,存在一定不确定性。
其次,时间紧。
青岛市劳动和社会保障部门社保系统是运行了多年的应用系统,除用于社保办公系统、劳动力市场的人力资源治理办公系统外,还有POS系统为青岛市的所有医院、药店提供24小时服务,停机实施时间限定在国庆节的7天内,而主要设备的到货时间却由于种种原因比原计划推迟,而到货后又出现部分设备配件不符合系统环境需求的情况,导致实施前搭环境、测试等预备工作的时间非常紧张。
第三,任务重。
项目实施涉及的产品多,技术复杂,涉及的任务面广而多,除硬件系统还涉及应用软件系统,除主机系统,还有网络系统、数据库系统,除后台应用,还有中间件前置服务等,除常规的硬件集成,还有很少涉及的加密机、NAC机等涉及POS系统的实施。
第四,基础条件不足。
主要是青岛市劳动和社会保障部门现有运行系统主要设备均已过保,而部分要害设备有造成系统瘫痪的严重隐患,比如EMC盘阵的控制器故障,三台主机大光纤通道卡故障,以及缺少根系统备份硬盘及内置小磁带机等,导致根系统备份的困难,这些都极大地提高了项目的实施风险。此外,POS系统相关配置信息的缺乏及对系统结构和工作原理的不了解,增加了整个系统的实施难度。
第五,风险大。
此次容灾系统的实施,是为在用的生产系统建设容灾保护,社保系统分三部分,一是社会保险服务办公系统,二是劳动力市场的人力资源治理系统,三是服务于全青岛市的医院、药店的POS系统。这三部分都与青岛市民的生活密切相关,其中第3部分更是要24小时对外服务。实施过程的稍有不慎,都会导致系统数据的损失,如实施期间发生意外情况,又不能及时恢复原有系统的运行,将造成极大的社会影响。而即使在完成了容灾系统的安装配置后,进行应用测试时还有可能因测试导致数据的不一致或产生无效数据,影响系统的正常运行。
坦然迎接挑战
针对经验少问题,项目组采取了3方面举措:一是将原有系统的各部分进行具体调查, 把握生产系统的各方面信息;二是与各厂家工程师交流,探讨涉及各个系统的方案实现;三是内部挖潜,通过集思广议,共同努力解决。比如对Tuxedo的编译处理等,就是社保软件人员在缺少技术支持的情况下,自己研究摸索完成的。
针对时间紧问题,通过制定具体的进度计划,确定异常情况的应急措施,做好备份、克隆等预备,并在实施中碰到意外及时调整实施策略,保证了要害任务的顺利实施。在领导及各职能部门的协调支持下,及时地解决不符要求的设备配件的更换。项目组成员明确分工、协调与沟通。
针对任务重问题,通过将任务分解,确定任务接口,明确项目组成员的分工,通过领导的协调,解决人员紧张问题,同时,在国庆节期间的要害任务实施,还从东软总部调来了内援,这些都对项目的顺利实施起到重要的作用。
针对基础条件问题,也有了部分改进,主要是解决了要害的EMC CX600旧盘阵的控制器故障问题。
针对风险大问题,主要在系统备份、数据备份,应急措施的预备等几方面下功夫。事实上,看似简单的解决办法,却在实现中有许多要注重的部分,而其要害在于细节的把握和控制。
通过对5方面问题进行有针对性的解决,青岛市劳动和社会保障部门容灾系统得以顺利完成。该系统的顺利实施极大地提高了青岛市劳动和社会保障局社保信息系统的可靠性和抗灾难故障的能力,大大提高了系统的不停机维护能力,提高了整个社保系统的运行效率和对外的服务质量,从而提高了客户的满足度。