某理工大学高性能计算集群系统是为了满足计算流体力学、计算固体力学等的需要,对浮点运算和并行计算性能有较高的要求,属于计算通讯密集型集群系统。使用对象主要包括教师、研究生等。要求投标商除了能够提供所需硬件设备、系统优化、搭建并行环境以外,对后期系统管理、作业调度和对使用对象的培训提供有力的支持。
客户需求:
高稳定性:该套系统至少保证每年连续运行时间不少于10个月;整个系统应该具有良好的容错性能,单节点失效后,系统应能够将其承担的工作转移到正常运行的节点上,以便保证计算工作的准确性和可靠性。
高性能:该系统应能够同时承担较多用户的接入;能够合理分配用户提交的各项任务,即能够保证计算任务快速准确的完成,又能够节约资源降低使用成本。
可扩展性:该套系统必须符合可扩展性的要求,使得系统的升级(硬件、系统管理软件)简单、平稳,不能严重影响日常科研计算工作的正常进行。
可管理性:集群管理和作业调度系统采用高性能计算集群管理软件.
解决方案
通过分析,宝德PS8000集群对本次项目的Linux集群提供更强大的处理能力和更多选择。其硬件连接方式如下图:

任务运行方式:客户从Windows PC上运行客户端程序,然后将计算任务提交到管理节点,管理节点按客户端提交参数,将计算任务分解到各个计算节点,节点间通过千兆交换机进行消息传递。
1. 本次宝德PS8000高性能计算解决方案采用3台宝德GreenBlade刀片服务器担任计算节点,其7U的空间内可扩展14个计算刀片,充分满足随需扩展的超高密度部署需求。每个计算节点提供2个Intel 5420系列CPU,8GB内存。可实现本地和远程KVM、Serial-over-LAN (SOL)及刀片服务器监控,支持4X DDR infiniband交换模块。
2. 本项目提供两台1U机架式服务器PR1510D担任管理节点机与登录节点。每台服务器提供2个Intel 5420系列CPU,16GB内存,2块热插拔SAS硬盘做RAID1,保证数据的安全可靠性。
3. 提供一台48口交换机,划分两个VLAN,分别为VLAN1计算网络;VLAN2管理网络。计算网络和管理网络相互独立运行,保证数据传输的高可靠,可用性,且易管理。
4. 存储节点采用宝德GS-5016SAS-SAS存储系统,提供单机7.2T的海量容量(450G SAS硬盘),支持RAID 0/1/1E/10/5/6/50/60支持全局热备硬盘(Global hot spare)与指定热备硬盘。本项目配置1.5T以上的容量,CACHE可达512M,采用RAID5以上级别以保证数据的高可靠,高可用性。
本方案采用3台PR7014B-S3组成40个计算节点,配合高速千兆以太网组成集群。管理节点采用宝德服务器PR1510D,运行集群操作系统、Intel集群工具,并配置一台存储服务器宝德GS-5016S作为存储节点,提供1.5TB的系统数据存储量。
目前,Linux集群的广泛部署和采用还存在着重重障碍。集成和支持非常复杂,某些应用可能尚未推出,而且由于互连瓶颈,数据访问可能会十分缓慢。通常,用户对来自多方的Linux集群组件进行装配往往需要进行既耗时、成本又昂贵的集成、测试,并对目标软件堆栈、驱动程序和库进行移植。预先集成而尚未完善的集群解决方案要求用户独立添加及验证关键组件。有限的平台组件选择常常迫使用户去选择并不能完全满足其需求的解决方案。然而,作为国内HPC技术的领导者之一,宝德已经解决了这些挑战性的难题,并为高性能计算(HPC)用户提供更简单的方法,来提高性能、降低成本。