一、行业背景
医疗行业的信息化建设经过了几个阶段的发展,HIS、LIS、RIS以及PACS等众多内容丰富、功能强大的应用软件逐渐成熟,成为医院信息技术的核心。随着时间的推移,这些环境的数据越来越多,数据的价值也越来越大,数据丢失或系统停机所造成的损失会造成越来越严重的后果,甚至变得不能接受。
另一方面,“9.11”事件爆发以后,“容灾”这个词汇逐渐成为人们谈论最多的焦点之一。而随后的一系列自然灾难的发生,更推动了IT系统容灾的需求。医疗行业也不例外,今天许多医院治理者和就医者都十分关心医院的IT系统的高可用性。
二、需求分析
医院信息系统是一个数据量大,数据类型复杂和事务并发多的实时系统,由于医院业务的非凡性,任何人为或自然因素所导致的应用或系统中断,都会造成医院巨大的经济和名誉损失及严重的法律后果。所以医院应用对IT系统的持续稳定运行提出了非常苛刻的要求。
在目前已经上线的医院IT环境中,绝大多数医院都采用了群集技术(也就是通常人们所说的“双机热备份”)来保证服务的持续运行或者在用户可以容忍的时间之内自动进行服务恢复。群集技术在应对服务器故障方面有着显而易见的效果,这一技术已经得到大多数医院用户的认可,并已经得到很大程度上的普及。
但是,随着群集技术运用的普及,很多用户发现群集本身也有一些非常明显的不足:
1、 由于传统的群集解决方案多采用“2+1”的模式,即两台服务器连接到一台磁盘阵列。这种结构是为了在两台服务器之间共享数据。但是单台磁盘阵列往往就成了核心系统的一个单点故障点,一旦磁盘阵列发生故障,则整个系统将发生停机,作为7×24营业的医院来说,这种意外的停机是无法忍受的;
2、 很多用户往往有这样的误解——既然我的系统已经是“双机热备份”了,那么,我的数据也不需要备份了。这种误解导致很多用户往往忽视了数据备份的重要性,结果整个系统的数据只有磁盘阵列中的一个拷贝,等到由于磁盘阵列发生故障或人为误操作导致数据丢失的时候,才发现悔之晚矣!
3、 虽然关心容灾,但由于各种原因目前大多数国内的医院在建设IT系统时并没有过多地考虑。一旦发生火灾、地震等灾难性事故,整个系统将毁于一旦,数据将一去不复返,医院将遭受无法估量的巨大损失。
由于医院通常都没有与大型企业类似的各地分支机构,往往就是集中在一个园区之内,所以要为医院特地构建一个容灾中心对医院来说其实很不轻易,但要实现一个园区级的容灾系统对医院来说却是非常轻易的。
综合以上需求分析,医院IT系统应该急需建立的是一套能够提供实时的数据保护、高度可靠的故障切换、以及园区级系统容灾的完善解决方案。
三、解决方案
为了区别于以前的群集模式,我们把这个方案通俗地称为“2+2”群集模式。从功能上来讲,该方案历史性地突破了原先狭窄的HA概念,提供系统全冗余、无任何单点故障、以及数据和应用的园区范围的容灾功能,使医院IT系统真正没有后顾之忧。
在原来的“2+1”群集模式的基础上,增加了一台磁盘阵列,将一台服务器定义为一个“运算节点”,将一台磁盘阵列定义为一个“存储节点”,所谓“2+2”的意思就是“两个运算节点+两个存储节点”。
利用VERITAS Storage Foundation的卷镜像功能实现两台磁盘阵列之间的镜像关系,每一次I/O的写入都分别通过两条主机通道到达两台磁盘阵列的控制器,并且当两个I/O都返回正确的结果之后,操作才算完成。所以,两台磁盘阵列中的数据完全保持实时同步,不用担心任何的数据一致性问题。当然由于我们采用的是同步传输的方式,两个节点之间的距离不能相隔太远,建议的最远距离为50公里,假如超过50公里的距离限制,将会明显地影响业务系统的运行性能。对于超过50公里的距离限制的容灾要求,我们建议采用VERITAS Storage Foundation的Volume Replicator Option做异步方式的传输,异步方式不会造成在线业务系统性能的下降。不过50公里这个距离限制对于医院的园区级别的容在要求是完全能够满足的。
采用VERITAS Storage Foundation HA实现两个运算节点之间的群集关系。除了实现基本的群集功能之外,VERITAS Storage Foundation HA还有很多非常明显的优势,如:
最多支持32个节点的超大规模群集、简单易行的节点退出和加入操作、跨平台治理群集服务器系统、支持群集卷的在线扩展以及与VERITAS Storage Foundation天然的兼容性等等。
如此,对于一个应用来说,只要任意一个运算节点和一个存储节点运行正常,那么,整个系统就能够正常运行。
以下是该解决方案的几个显著的特点:
1、 全冗余连接,无任何单点故障。系统中任意一个部件的损坏都不会影响系统的正常运行;
2、 镜像的存储节点为系统要害的在线业务数据提供了双重保护;
3、 结合综合布线系统实现了数据和应用的容灾;
4、 除了以上几点特有的优势之外,由于该解决方案支持先进的SAN架构,同样具有SAN架构自身的优势,如:可以实现高性能的LAN-free备份以及良好的可扩展性等等。
本方案的逻辑架构图如下所示:
结合综合布线的变化,我们可以将两个节点分别部署在园区内不同的建筑内,如门诊楼和住院楼,如此,即使其中一栋楼发生灾难性的事故(如火灾等),医院的应用仍然能够继续正常运行,也不会有任何数据丢失的情况发生。如下图所示:
当然,整个方案的架构也具有非常好的可扩展性,不仅可以“2+2”,我们还可以做到“N+2”,甚至“N+N”,如此,我们可以把医院的所有信息系统整合起来,从而有效减少硬件投资,同时提高系统可维护性。如下图所示:
四、应用效果
本方案充分考虑了故障发生的可能性,为医院的信息系统(尤其是至关重要的HIS系统)提供了可靠的数据保护和高可用。该方案不仅是完全的无单点故障系统,同时具备很强的容灾功能。
到目前为止,国内已经有越来越多有代表性的医院采用了本方案。从医院使用的效果来看,本方案大大减小了医院HIS系统停机的可能性。同时,本方案的治理维护工作非常简单,非常有效地减轻了医院信息系统治理人员的工作量。