高性能计算中心一来为学校下属的多个学科提供一流的高性能计算环境;二来,还可以面向福建省和厦门市的高校、企事业单位开放,使之成为全省的高性能计算中心。
厦门大学计算机网络治理中心成立于1995年11月,基于2台Cisco GSR 12012路由交换机为核心,如今厦门大学已经建成了覆盖全校的校园网络,其主干节点与核心交换机之间采用了两路不同地理走向的光纤连接,传输带宽达2Gbps以上;校内建筑、学生宿舍均实现了千兆连接,为教职员工创造了优良的网络环境。随着网络建设告一段落,网上服务和信息资源建设就成为了校园网建设的重点。
进入2006年,高性能计算中心(HPCC)被提到了议事日程,对此,厦门大学计算机网络治理中心主任商少平有两个考虑,一来学校的“985工程”公共资源保障与服务支撑体系需要高性能计算来支撑,需要为学校下属的化学、物理、材料、海洋、环境、数学、生命、经济等多个学科以及新近组建的11个科研创新平台和研究基地提供一流的高性能计算环境;二来,高性能计算中心建设并不局限于本校的科研与教学,还可以面向福建省和厦门市的高校、企事业单位开放,使之成为全省/市的高性能计算中心。如此,厦门大学将有望加入国家网格计算计划,从而实现与国内外计算网格的互联与资源共享。
基于上述两个考虑,有关方面确立了系统选型的原则和目标:既要体现最新的高性能计算技术,同时又要具有成熟稳定的发展方向;完全64位(即硬件、操作系统及应用全部支持64位);能够高效稳定地长期运行;易于治理,方便扩展;设计合理,无系统瓶颈。
SMP/NUMA笑到最后
2006年初,厦门大学引进了共采用256颗安腾2处理器的HP Superdome高性能计算集群系统,作为筹建中的高性能计算中心的核心设备。由此一来,厦门大学高性能计算中心的系统选型方案也告水落石出,基于SMP/NUMA的结构笑到了最后。
谈到系统选型,商少平主任表示,之所以选用SMP/NUMA的方案,最重要的一点是这种结构非常适用于并行度要求不是很高的科学计算领域,此外系统的稳定性也是重要的考量因素之一;相对而言,Beowulf集群,也就是我们常说的服务器集群方案,虽然在价格上非凡具有竞争力,但是它比较适用于并行度高的应用项目,例如密码的加密、解密,但不太适合厦门大学的情况,其系统的可用性和稳定性也达不到要求。为此,商主任还表示,产品供给商的服务水平也非常重要。在厦门大学对各厂商高性能服务器的考察决策中,惠普联合广州华南资讯科技有限公司不仅为其提供了相应的软硬件整体解决方案,还能够根据与用户的交流和沟通情况,不断进行方案的修改和调整,这也是他们最终胜出的原因之一。
据了解,此次厦门大学的高性能计算机系统主要用于以批处理形式运行的大量作业计算,要求能够同时高效率支持多用户多作业的运行;对不同应用特点的用户群能够提供不同的使用环境,交互和批处理类型的负荷能够互不影响; 能够合理分配不同类型的计算作业;能够在运行中方便快捷地更改计算资源的分配方案,以最大限度地提高计算资源的使用率;在突发事件等引发系统暂时中断服务时,能够尽可能减少作业中断带来的时间损失和用户额外的工作量。
惠普为厦门大学提供的高性能计算机系统为SMP/NUMA结构,采用8台Integrity Superdome作为计算节点,共采用256颗1.6GHz、9MB三级缓存的安腾2处理器,系统峰值达到1638.4GFlops,有效值为1531.56GFlops,Superdome服务器节点采用模块化的Crossbar体系构架,整个系统最大提供256GB/s的内存带宽。
此外,该系统还采用了HP自行开发的SX1000芯片组、HP-UX操作系统和HP C/C++/Fortran编译器。谈到安腾2处理器,商主任表示,由于该处理器是由惠普公司与Intel公司共同开发,因而在64位计算技术以及芯片技术的成熟可靠性方面令人放心。
体验可靠与成熟
据了解,目前厦门大学的高性能计算中心尚没有投入使用,但是在建设过程中,用户已经对惠普的Superdome系统有了一个初步的印象。
首先是系统的可靠性,该系统的要害部件都采用全冗余、非单点故障的配置,包括计算网络、存储网络,如此可有效应对处理器、内存、硬盘、电源等的故障。对此,惠普的技术人员表示,即使整个计算节点发生故障,系统的治理人员也可利用系统的Checkpoint/Restart以及挂起/恢复功能,在无须修改应用程序源代码的情况下,将运行中的作业保存到磁盘中。如此,待计算节点故障恢复后,用户的作业可从断点保存处继续运行,从而可节省用户宝贵的计算时间。
此外,该系统配置了两个互为冗余兼负载均衡的24口Infiniband交换机,其治理节点还通过千兆以太网与校园网互联,保证网络单点故障不会影响整个系统的运行。系统的8个计算节点通过互为冗余的SAN网络连接到共享磁盘柜EVA4000上,通过ADIC Stornet存储治理软件,形成一个单一映像的SAN文件系统,实现多个节点共享、并发的、通过SAN 网络的存储共享机制。
在系统的治理方面,该系统采用64位的HP-UX操作系统,通过Systems Insight Manager (HP SIM)和HP Integrity Essentials for HP-UX治理软件提供集中式的单点治理,例如HP SIM通过一个统一的治理界面治理整个集群系统的硬件资源、软件资源、故障监控、配置治理等;通过增加Integrity Essentials模块,又可提供集中化的操作系统安装和软件部署、分发以及系统配置治理功能。该集群系统通过作业调度软件(LSF)的资源治理和优先级排队功能,能够合理、动态地分配资源给众多用户。
在厦门大学的方案中,他们还配置了一台rx2620服务器作为治理和服务节点,通过千兆以太网连接到计算节点,负责集群系统的监控、作业提交等功能。
厦门大学高性能计算中心建设一览表
建设目标
既要为化学、物理、材料、海洋、环境、数学、生命、经济学科的基础科研提供高性能计算环境,同时要考虑对外提供服务。
系统方案
采用256颗安腾2处理器的HP Superdome构建高性能计算集群系统,为SMP/NUMA集群结构采用8台Integrity Superdome作为计算节点,系统峰值达到1638.4GFlops,有效值为1531.56GFlops。
计算节点采用模块化的Crossbar体系构架,最大可提供内存带宽256GB/s。此外,该系统还采用SX1000芯片组、HP-UX操作系统和C/C++/Fortran编译器。