9.11――2001年最黑暗的时刻之一,随着高耸入云的那幢世贸大厦的倒塌,几千条生命消失了,同时陪随着的还有大量宝贵的数据。一场震惊世界的灾难,一幢现代化大楼的倒塌,再次把数据灾难恢复的问题摆在人们面前。
前言
无数次事件表明,一个有良好灾难恢复计划的的公司将比一个毫无这方面准备的企业有更大的生存机会。本文中我们主要介绍关于企业服务器管理的灾难恢复计划。
“灾难恢复”的目的似乎相当明确,即恢复企业动作所需的IT职能。谈到它时,我们想到的往往是一些戏剧性的灾难,如火灾,洪水,地震等。而实际它涉及到相当多的情形,如一些普通的磁盘故障或电力间断,而类似如一些施公单位一不小心挖断了公司的主要数据线之类的事对企业造成的影响也可能是灾难性的。
必需做的计划
如果企业的关键服务器或网络资源受到破坏,企业赖以动作的关键信息如订单、制造,财务信息不再可用,尽管这种情况较少出现,但事实表明,有50%的公司没能从此类的灾难中恢复过来。
因此,制订一个灾难恢复计划极为重要。
一个灾难恢复计划的大纲非常简单,可以有以下这些要点:1)对风险的评估,2)寻求解决方案,3)执行计划,4)维护计划。
当然,实际操作起来不会这么简单。大型企业在不同的业务范围会有不同的IT基础设施,与小型相比会有不同的灾难恢复计划。
更详细的说,当制订一个灾难恢复计划时,一个关键问题是,企业能否允许多少宕机时间。那些基本不依靠计算机通讯和进行其它联系的企业受到的影响会很小,另一些企业可能只要求数据和关键应用程序没有被破坏,而有的企业则要求实时的计算响应。
成本考虑
灾难造成的损失当然是巨大的,然而对风险及其造成的影响进行评估的一个常见问题是我的灾难恢复计划将耗资多少。如果灾难风险较小而计划的费用太高,计划的预算将被削减。大多数企业不会支付无限制的灾难预防费用,他们会在风险与保障间寻找一个平衡点。
评估风险
灾难网络评估往往是一件很复杂与主观性很强的工作,因此这里仅仅对一些很表面的东西进行讨论。不同的企业会有很大的不同,专家的意见是极其重要的。
通常,一个企业的IT风险被划分为两大部分,
一是计算机系统(包括网络通讯故障),如断网,黑客破坏和一些意外故障。
另一类是环境问题,如洪水,火灾,恐怖袭击等。它们带来的往往不仅仅是一场IT灾难。
然后,对每一类风险列出涉及到的计算和通讯设备清单(从服务器开始)。为每一个设备分配相对应的风险因子和恢复优先级。
当对硬件设施整理完全后,对涉及到的软件和数据资料也使用相同的方法进行处理。当这一切都做完以后,企业应该已经拥有了一张可能遭到的风险以及当硬件设备,应用软件或数据受到破坏时的恢复方法的清晰蓝图。
制订恢复计划
大多数服务器风险恢复计划的核心是物理隔离。数据(常常包括服务器)一般是异地保存的,与公司的日常办公地点相隔离,这样,一些内容的灾难事故就不会损坏他们。
存储这些设备的地点一般被称为恢复中心(recovery site)。它们常被分为这几类:
热站(Hot Site):在这里,服务器,数据与应用程序与主服务器随时同步(镜象)运行,这样灾难恢复是过程极其快速,几乎难以被觉查。但由于这种方案意味着软硬件的重复投资,因此这种方案一般投资高昂。
冷站(Cold Site):数据,应用程序及服务器是平时处于准备就绪状态,并以一定的频率更新与主站保持同步。当灾难恢复时这此些系统要经过一段时间调试才能投入使用,因些故障恢复时间是以小时甚至天数来衡量的,这个方案相对比较昂贵(取决于所需的设备),当然,它比热站方式要便宜些。
通过其它离站存储设备。这样不涉及设备的重复投资因而价格经济,但恢复意味着整个硬件环境的重建,需要相当的恢复时间。
合作备份(Reciprocal Site):有时,可以通过合同或契约的形式与友好的企业共享服务器与备份数据,这个方案可以节省大量的费用,但同时带来了大量的安全隐患。
选择适合的灾难恢复方案类型并制订政策,运行规程等是灾难恢复方案制订的最重要部分,在讨论方案的实现方法过程中,与员工,经理人和合作者的密切交流极为重要。
是自购还是托管
由于恢复计划中重建软硬件环境的投资非常昂贵,很多企业都在衡量是拥有自己的恢复中心与利用第三方的服务――将恢复中心托管两种形式的利弊。
借助于Internet,很多应用服务器提供商(ASP)提供以不同的价格提供各种水平的专业灾难恢复服务。但安全与一些公司运作上的要求却常使这这种方式变的几乎不可行。企业对业务运作与安全的要求常常压倒成本因素。
执行和维护计划
执行灾难恢复计划不是一件日常进行的工作,他必需包括仅仅与IT相关的服务器,数据,和通讯设施的物理保护。如果遇到一些突发的情况,人员的正确反应也是很重要的。因此,整个企业,从执行长官到普通职员都应该得到经常的培训,清楚的了解它们在灾难恢复计划中的职责。
一定不要假设那些放在缠满各种线的盒子里的设备可以几个月甚至几年都正常工作,除了对计划中涉及到的各种硬件设备要进行定期的测试,对于各种应急程序以及假设的紧急事件也要进行定期的更新。
对于服务器及相关设备的灾难恢复措施与日常的IT操作规程都应作为整个计划的一部分,制订这样一个计划可能是一项浩大的工程,但却肯定物有所值。