说起RAID,人们不约而同首先、而且唯一想到的是我们听到的磁盘冗余阵列,其实这一技术早已被HP应用于内存之中,那就是它的热插拔RAID内存技术,并且在其一年多前推出的ProLiant系列中的700子系列服务器中得到应用。下面我们就先来了解这一技术,然后再来介绍采用最新RAID内存技术的HP ProLiant 700系列服务器的代表产品。
一、RAID内存技术
由于应用程序越来越复杂对内存要求越来越高,同时处理器的处理能力也更强,服务器内存的扩展已经是必然的事情。要满足这个要求,服务器的制造商面临的问题就是在增加内存的密度、增大内存的容量的同时,保证系统内存的可靠性。
文章导读
一、RAID内存技术
回写(Scrubbing)技术
热插拔容量 Hot-Plug Capabilities
二、采用RAID内存技术的代表产品
1.HP ProLiant 700 DL740
2.ProLiant 700 DL760 G2
HP 也面临同样的问题,它的解决办法是利用3种容错内存保护技术(fault-tolerant memory protection technologies):在线备份内存、热插拔镜像内存和热插拔RAID内存。在线备份内存适用于那些不想因为仅内存错误就停机检修设备的用户,他们希望利用固定的设备检修时间更换出现故障的内存模块。热插拔镜像内存能够为此类用户提供更高的容错能力,而且用户也无须等到设备固定的检修时间才更换出现故障的内存,因为热插拔镜像内存可以让用户在不关机的情况下对内存进行在线替换。对于那些需要大容量内存支持且长时间不间断运行的应用程序而言,HP热插拔RAID内存的可靠性最高。它可以保证内存子系统运行正常,即使是在有一个内存设备完全出现故障的情况下也是如此,它支持工业标准的DIMM在线替换、在线扩展和在线升级。本文仅向大家介绍HP的热插拔RAID技术。
RAID内存的含义是工业标准的DIMM容错阵列(Redundant Array) ,结构图如图1。
图1
对比图2,我们不难看出,惠普热插拔RAID内存(Hp Hot Plug RAID memory)在概念上和RAID 4 磁盘存储技术是相似的,在系统架构上就更像一个硬盘,所以采用了热插拔RAID内存保护模式的系统就可以达到像RAID硬盘一样随意替换内存的效果。但在一些关键的性能上会有所不同,两者的实现方式上也不一样。与磁盘阵列不同,惠普热插拔RAID内存使用的是并行的点对点的连接方式写数据,而不是通过连接多块磁盘的串行总线,这种方式的优点是数据可以同时被写入多个存储区(内存盒),不存在延时(Mechanical delay),消除了因为存储系统使用RAID技术处理而带来的写数据的瓶颈问题。而在一个磁盘冗余存储阵列中,通常情况下RAID控制器在写数据之前会先读现有的奇偶信息,如果有专门奇偶校验驱动器做这项工作,那么就会带来瓶颈。但惠普不是这样做的,惠普热插拔RAID内存运行在整个数据缓存线上(参见图1),所以在写数据前没有必要读现有的奇偶信息。
图2
采用惠普热插拔RAID内存方式的服务器使用5个内存控制器来控制5个内存盒(Memory cartridges)。每个盒可以安装最多8个工业标准DIMM(参见图3),当内存控制器向内存中写数据的时候,它们会把数据分成4块分别写入4个内存盒,并把计算所得的奇偶信息存放在第5个内存盒中。利用前4个内存盒中的数据和第5个内存盒中奇偶信息,数据可以完全恢复,即使是任何DIMM工作故障,或任何一个内存盒被拆掉了,也可以做到不丢失数据。可以看出,热插拔RAID内存克服了在线备份和镜像备份两种模式的各种缺点,为系统提供了长时间不间断运行条件,使应用程序获得更高的可靠性和稳定性。
图3
||||||在读操作中,每个从内存盒中读出的数据都会经过内存控制器和一个ECC设备进行错误检查, 另外,其余4个内存控制器会重新生成一个值,RAID 内存引擎会将读出的数据和这个生成值进行比较。RAID内存的读写过程可参见图4。
图4
数据1(Data Word1)通过它自己的内存控制器(MC1)后,送到 ECC 设备进行错误检查,这个ECC 设备使用的是新的8-bit ECC 算法(由HP开发),它可以检测到X8内存( X8 memory modules)中发生的错误,可信度很高。ECC用一个信号将检查结果“好”(Good)或“坏”(Bad)送给多路复用器( MUX1)。具备下列3条中的一条,ECC 设备就判断数据1是好的: (1) 数据正确 (2) ECC检查出了错误但改正了 (3)数据中有错误,但ECC 设备检查不出来。
HP 热插拔RAID内存通过进一步的校验方法控制所有三个部分的错误。其余的4个ECC 设备(包括保存奇偶信息的内存盒的)将它们保持的数据送给RAID内存控制引擎(RAID Engine),后者利用这些信息通过RAID算法重构数据1,RAID内存引擎将重构的数据1送到MUX1的比较设备中 (奇偶比较) ,在这个设备里面重构的值和ECC传过来的数据1进行比较,如果两个完全相同,MUX 输出数据1。如果不同,说明数据1有错误,比较设备会给系统发出一个“non-maskable interrupt” (NMI) 信号,中止系统运行,禁止错误数据1的输出。这个过程是同时在重复进行的,因为同一时间内还会从其它的存储盒中读数据,参见图5。HP 热插拔RAID内存方式的这个特性保证了采用这种方式时数据的可靠性非常高。HP 将对热插拔RAID内存进行改进,采用回写技术(scrubbing)定位软错误。
图5
在HP的热插拔技术中还应用到两个小技术,它们就是:回写(Scrubbing)技术和热插拔容量(Hot-Plug Capabilities)技术,下面分别予以简单介绍。
回写(Scrubbing)技术
HP热插拔RAID内存提供了一个回写硬件方式,它可以确认ECC或RAID检查出来的软错误。惠普技术尝试定位在读内存时检查出来的所有软错误,方法是把改正后的正确的数据写回内存中去。但此方法不适用于硬错误。回写技术可以阻止软错误的累积,避免发生更严重的错误。它降低了ECC的工作量,提高了系统的性能。一些传统的系统采用的是软件回写,HP热插拔RAID内存使用硬件完成这个工作。
HP热插拔RAID内存会对错误生成错误日志,错误极限由软件设定。当记录的错误值达到错误极限的时候,软件会自动作出反应。例如当超过错误极限的时候故障灯会自动点亮,这就是由软件控制的。
热插拔容量 Hot-Plug Capabilities
惠普热插拔RAID内存还可以允许用户在不关闭服务器电源的情况下在线更换、在线扩展以及在线升级DIMM,这就是HP的热插拔容量(Hot-Plug Capabilities)技术。
在线更换指在系统运行的情况下更换出现故障的DIMM 。惠普热插拔RAID内存不需要操作系统的支持,服务器在购买的时候就具有支持在线更换的能力。在线扩展指用户在空的插槽上插入DIMM以扩展系统容量,在线升级是指用户用容量更大的DIMM替代旧的较小容量的DIMM。在线扩展和在线升级都可以使用户获得更大的系统内存容量。在线扩展和在线升级要求操作系统的支持,系统要可以认出新增的内存。
当在线内存操作完成后,如果工作在热插拔RAID内存模式下,那么系统会自动在所有的内存盒上重新放置数据(rebuild)。虽然这样做会暂时降低内存的工作性能(重新放置4 GB的数据花费时间少于30秒),但是只需要花费很少的钱就可以增加容错能力,并可避免系统检修期间带来的经济损失。
二、采用RAID内存技术的代表产品
我们在本文的前面就介绍到,HP的这一最新内存技术——热插拔RAID内存技术首先得到应用的是它在一年多前推出的最新ProLiant 700系列产品。下面介绍这个700系列服务器的两个子系列产品:DL740和DL760 G2。
||||||1.HP ProLiant 700 DL740
惠普DL740是业界首款4U八路机架式服务器(如图6所示),且以瘦身后的“窈窕身段”给八路机架式服务器带来极大的空间冲击,为企业的服务器整合、关键业务应用提供更高的空间价值。
图6
惠普DL740将标准的7U的体积压缩到了4U,但是DL740的性能并没有打折。而且在2003年一月份最新的SAP SD Benchmark中获得715分的好成绩,比相同核心配置的IBM X440高出25分成为第一名。DL740采用的是最新的Intel Xeon MP(Gallatin)核心处理器,每个处理器高达2.0GHz/2MB L3缓存。采用F8芯片组,并首次提供对HP最新新技术——热插拔RAID内存的支持,最大可支持32GB内存。另外,它还设有6个可热插拔的100MHz PCI-X插槽,集成2个千兆铜缆以太网卡和Ultra 3 Smart Array控制器,在多设备机架上标配DVD驱动器。
在存储性能方面,DL740 内部存储共支持四个热拔插的Ultra3 SCSI 磁盘,最大的内部存储能力达 587.2 GB。标配集成的Smart Array 5i RAID控制器,内建缓存32MB,支持Ultra 3,内部硬盘驱动器支持RAID 0、1、1+0和5,如果选用具备128MB缓存的 5312 RAID控制器,性能相比5i可提升18%。
DL740的服务器管理员可以通过Web浏览器在远程轻松取得管理接口:集成的Lights-Out(iLO)组件。标准的iLO组件能够提供一个文本控制台界面,使管理人员能够初始化引导次序以及一个进入操作系统以后的文本控制台。更高级的iLO 版本增加了显卡远程控制台和虚拟软驱(作为独立选件提供)。着眼于服务器整合的发展趋势,HP开发了可选的 ProLiant 工作负载管理包,来保护和管理服务器资源。工作负载包的主要模块是资源分割管理器,主要用于让管理人员为每个进程或者应用程序分配处理器资源以及内存数量。
惠普是目前唯一全面支持和掌握热插拔RAID 内存技术的服务器厂商,而惠普的ProLiant服务器也成为热插拔技术的最佳代言人,新推出的DL740当然也同样如此。热插拔RAID内存克服了以前在HP ProLiant某些方面300和500系列中的在线备份和镜像备份两种模式的各种缺点,为系统提供了长时间不间断运行条件,使DL740具有更高的可靠性和稳定性。
2.ProLiant 700 DL760 G2
HP ProLiant DL760 G2(如图7所示)是DL760的升级版本,采用了最新的Intel Xeon MP 2.0GHz(Gallatin)处理器,并配合最新工业标准F8芯片组。与原有的Xeon processor MP相比,新型的处理器采用了0.13μm工艺技术制造,在数据库、CRM、SCM等通常服务器负荷方面性能最大可提高38%,并能够以更小的体积实现更高速度的处理,在最新的TPC-C性能测试表现优异——每分钟115,025tpmC(92,000个客户端),以18%的性价比超越IBM X440,成为同类八路服务器的第一名。F8是惠普专为Gallatin设计、基于symmetric multiprocessing (SMP)架构的新一代芯片组技术,使PCI-X、千兆以太网、热插拔内存的通信带宽及性能都得以大幅度提高。
图7
DL760 G2拥有80GB热插拔RAID内存 (64GB可寻址),6 个 64位 100MHz对等PCI-X总线,集成式Smart Array 5i控制器,支持4个Ultra3 SCSI HDD。而且它还与以前所有的7U八路服务器完全兼容,只要简单更换I/O模块便能够达到升级的目的,无需任何升级工具,对用户的现有资产起到良好的保护。DL760 G2还附带有全套的管理软件以及可选的Remote insight lights-out edition II,具有业界领先的可管理性和可维护性,使用户可以实现从IT架构到服务器再到服务器子系统的全面管理和维护。
在可管理性方面,HP的这个子系列服务器中采用了全新的Compaq Insight Manager 7、Compaq Remote Insight Lights-Out Edition(可选)、基于ROM的Setup Utility (RBSU)、集成的管理显示器 (IMD)、服务器健康日志、自动服务器恢复-2 (ASR-2)、系统互连状态指示器、远程烧录冗余ROM、脱机备份处理器功能、Compaq 关机实用程序、Compaq 电源查看器,以及故障前保修(覆盖处理器、硬盘驱动器和内存)等全套管理工具,DL760服务器具有无与伦比的可管理性能。
从以上的分析可以看出,HP在服务器内存方面同样具有非常雄厚的技术实力,相对IBM在其企业级X架构服务器中所采用的几种服务器内存技术,HP的内存技术同样具有非常鲜明的特色,而且在一定程度上来说,较IBM的相应技术更加先进,如本文的热插拔RAID技术,就只是HP具有。其它如在HP ProLiant 500系列中应用的镜像内存技术,与IBM的内存镜像技术就基本上差不多。至于HP原来在其ProLiant 500系列中所应用的在线内存备份技术,相对来说比较落后,已被镜像内存技术和本文的热插拔RAID技术所替代。