数据恢复中心最近频频接到来自企业用户的急救电话,RAID磁盘阵列出现严重的故障;虽然经过数据恢复中心的工程师的抢救,挽回了损失,但也给大部分客户敲响了警钟,那么数据的备份就成了企业客户重视的核心部分了。如何制定备份策略,也是企业客户经常提到的问题?
备份是任何企业级网络中最基本的组成部分,但也是最容易频频出错的部分。不过,制订出正确的备份策略也并不是什么困难的事情,只要有耐心,勤思考,备份策略是很容易实现的。
备份策略
用户所要做的第一件事就是将数据从正在运行的系统搬到备份介质中。90%的备份操作都是将数据存储到磁带上,也有一些企业将数据存放在其他介质上,如CD-R或DVD-R。我们下面谈一谈磁带的问题,不过,如果用户是DVD-R或CD-R的用户,我们的想法对他们也有一定的借鉴意义。
备份中的变量有两个:容量和时间。
容量:如果用户使用磁带备份系统,用户的磁带空间肯定是有限的。如果用户拥有一台80GB DLT驱动器,而用户又希望每天备份的容量超过80GB,也就是说,备份的需求超过了容量,那么,用户就必须考虑如何解决这一问题。可以选择的解决方案有很多,其中最常用的是:对某些系统使用完全备份而对其他系统使用“增量”备份(也就是说只备份自上次备份以来变化过的内容),并且雇佣一个专门换磁带的人员。 增量备份是一种妥协,用户必须经常考虑到一个因素:如果进行增量备份,用户必须使用一盒以上的磁带来进行整个系统的完全恢复。而增量备份的方式有两种。 一种是对上次(增量或完全)备份以来所有添加或改变了的数据进行备份。不过,这种方法肯定不值得推荐,因为如果用户进行一次完全存储和六次增量存储,恢复系统所需的总磁带数将达到7盒。 而且如果有一盒坏了,就不能进行数据恢复了。 另一种方式对上次完全备份以来所有的数据进行备份。这种方法值得推荐,因为用户只需要两盒磁带就可完成任何一个系统的恢复。
时间:对于时间而言,有两种情况――备份时间不长和备份时间过长。 如果备份时间不长,仅仅在一小时之内完成,用户就不需要过分担心用户的网络性能会受到存储数据操作的影响。而在另一方面,如果用户必须将备份与网络中的生产性数据组合在一起,用户就必须认真考虑安装一套独立的局域网,并在每套备份系统中额外连接一块网卡,从而使备份数据与生产性数据各行其道。 要注意的是,即使用户的工作时间是一般的朝九晚五,用户可能也需要一套备份区域网络,尤其是如果用户需要对正在运行的Web服务器或外联网系统进行实时备份。用户还需要与软件供应商进行交流,寻求一些价格合理的实时备份软件来存储用户的电子邮件或DBMS软件,这样用户在备份数据时就不会对其他服务造成干扰。 另一个需要考虑的时间因素是,有时总的数据传输时间超过了备份的时间间隔。如果用户每天的备份需要运行30小时,那么问题就大了。解决的方法只有两种:添加额外备份系统或者考虑减小每天存储的数据总量。
校验和完整性:永远不要忘记对存储介质进行校验。如果时间允许,用户可以使用备份软件对写入磁带的数据进行校验。如果时间太紧,用户至少应该实施某个校验过程,确保每次备份的数据确实已经写入存储介质。如果用户的服务器发生系统崩溃,用户肯定不希望可以使用的最新的备份是2003年的。 用户还需要考虑的问题是,如何保存磁带。根据经验,尽管多数数据恢复的起因是有人误删除了某些文件,但实际备份专家们考虑最多的情况是建筑物失火、洪水或备份被窃。但在多数情况下,磁带柜是不防火的。如果用户的公司有多个办公地点,用户可以考虑将磁带分别存放在相距较远的两个地方,因为通常情况下,两处办公室同时失火的可能性是微乎其微的。当然,如果用户所在的行业可能受到恐怖袭击或其他故意破坏,用户可以考虑办公室以外的其他地点来存放用户的备份数据。 恢复过程 如果系统发生崩溃,用户需要以尽可能快的速度做出反应。这意味着用户不仅需要快速拿到备份磁带,而且要尽可能快地利用磁带实现系统的数据恢复。也就是说,用户需要保留所有关键系统的启动磁盘/光盘,并准备好磁带驱动器,以便能够顺利地将内容从磁带中提取出来。这是人们最容易忘记的事情。有些人用3个小时就能恢复系统,而有些人则要用两天,其原因也正在于此。
制度及执行:备份策略中最后一个关键的组成部分就是备份策略背后的制度及执行。例如,换磁带人员必须在每次更换后都记录在案,每盒磁带从系统中取出时都必须标明其中的详细内容,而且办公室与其他地点之间的磁带流通也都需要详细的记录。此外,最好选用标准的硬件平台,让所有的服务器都尽可能相似,这样用户只需一张启动光盘就可以启动所有的服务器。另外,还应当准备一台额外的服务器,用户可以利用它对整个恢复过程进行反复的测试。对于所有的事情都应当详细记录在档案中,这样,即使是茶水工也能按说明完成恢复操作。这也就是说,用户不仅要写下整个恢复过程的详细内容和说明,而且要在其他部门或办公场所的保险箱里保留一整套口令,这样,即使用户在外休假,其他人也能够在系统灾难发生时顺利地完成恢复操作。