随着文件大小和数据规模逐步达到TB和PB,用户也开始寻找一种新的方法,以便在不同的主机之间存储、访问和共享文件。集群和存储区域网(SAN)文件系统也因此应运而生。
厂商们已经制造了一些软件和硬件设备,它们可以把不相干的文件系统融合成只使用一个命名空间的文件系统。用户可以访问并共享其他用户的数据,而无需考虑是什么介质或其所处的是哪台主机。 这些设备和软件所使用的技术就是人们所熟知的集群和SAN文件系统。与分布式文件系统相比,此类文件系统有如下几大优势:因为数据不需要从一个文件系统拷贝或复制到另一个文件系统,通过集群系统共享应用和数据的任务执行起来要比在单独的设备上执行快得多;集群可以为文件和文件系统提供更多的空间;因为只需要管理一个文件系统,而不再是每个存储设备或主机都需要一个文件系统,管理也更容易了;如果集群内的某台服务器出现了故障,另一台服务器就可以把它的工作接手过来,故障恢复也成为了现实;用户也可以同时对位于其网络上的存储设备里的所有文件进行访问。 集群存储 在集群里,一组独立的节点或主机可以象一个系统一样步调一致地工作。它们不仅可以共享公用的存储阵列或者SAN,也可以拥有只有一个命名空间的公用文件系统。 最近的一些案例来自Cluster File Systems、Oracle、Red Hat以及新兴的Panasas和Spinnaker Networks公司等。Red Hat公司于去年收购了Sistina公司,该公司发布了适用于开放[url=http://www.pccode.net].net" class="wordstyle"源码的集群Global File System。Network Appliance公司则收购了Spinnaker Networks公司,该公司目前正在使用其SpinCluster软件来改进网格战略,即对网络附加存储(NAS)以及SAN存储进行集群整合。Oracle公司也在该公司的真正应用集群(Oracle 9i RAC)上使用其Cluster File System。Cluster File Systems公司则使用其Lustre File System来建立高性能的集群。 在一些成功案例里,单独的服务器也是通过元数据服务器或设备与存储连接,元数据服务器或设备可以对数据进行很细的分类,以使这些数据可以很容易地找到。 更好的性能是一些用户使用集群文件系统的一个关键理由。某用户目前使用Lustre File System,他们通过构建的集群来进行科学仿真和模型建立工作,如今把两个1000节点的集群用于生产系统。以前,需要在每一个集群上安装文件系统,而且当有人需要数据时,经常需要把一个文件复制到另一个集群上去,文件系统之间频繁的FTP任务对整个系统的性能造成了很大的影响。而现在他们能够随时将数据从文件系统中调出来阅读,在不影响正常仿真任务进行的同时查看系统运行结果。 SAN文件系统 尽管集群文件系统具有上述优势,但是,它仍有一些地方需要改进。 有用户评价说,集群文件系统非常复杂,此外,它们还需要技术人员很好的支持和专业技能来对其进行体系结构的设计,并使其运行起来。 与之相比,SAN文件系统能够把服务器与存储进行连接,并对文件系统环境进行“虚拟化”。 另一用户拥有的50TB数据是由ADIC公司的StorNext FS负责管理的。它正在进行科学镜像数据收集。 该用户的文件相对来说比较大,最大可达1GB,因此,使用分级存储格式来存储。其IT主管Terry Duncan说,“我们的大型系统里有数百万份文件。我们希望多个系统能够以非常快的速度同时查看相同的数据。” Duncan说,使用SAN文件系统之后,管理更容易了。如果我们不能把文件编写到一个公用空间,以便让数个系统同时访问这些文件的话,就很难以我们需要的速度来处理这些数据;如果不能拥有单一的命名空间的话,就得花大量的时间来回移动500GB的数据并对其进行分析。 ■ 集群存储新产品
一些新产品允许同时对分布于众多服务器和存储设备中的文件进行访问。 厂商名称 产品 文件系统类型 支持的操作系统 ADIC StorNext FS SAN Windows,Linux,Unix Cluster File Systems Lustre File System 集群 Linux IBM Global Parallel File System 集群,SAN Linux,AIX IBM TotalStorage SAN File System SAN Windows,Unix Panasas ActiveScale File System NAS Linux Red Hat Sistina Global File System 集群,SAN Linux