摘要:随着近几年国内高性能计算的普及,高性能计算中心的应用需求不断扩大。普通的集群系统很难解决系统规模扩大之后所带来的问题,包括:可扩展性、性能效率、普适性和通用性、维护管理、系统功耗等。用户需要更有针对性的适用于高性能计算中心的计算机系统和整体解决方案。
由中科院计算所和曙光公司联合研制的曙光5000A(又名“魔方”)高效能超级计算机于2008年成功推出,峰值性能达到230Tflops,实际Linpack测试性能为180.6Tflops,进入了世界前10名,成功应用于上海超级计算中心。曙光5000A的成功,极大缩小了国内与美国在超级计算机领域的差距,并且在计算密度、系统效率、系统功耗等诸多方面达到了世界先进水平。
曙光5000A是针对高性能计算中心的需求而研制的系统,在曙光5000A的基础上,曙光公司推出了曙光5000系列计算机及其应用解决方案。
基于HPP架构的曙光5000具有“四高两低”的显著特点,完全自主知识产权,可为国内高性能计算建设项目提供完善的方案。
1. 高性能计算中心项目概况
国内的高性能计算在2005左右进入了一个较快的普及阶段,经过几年的发展,目前国内的高性能计算用户数量得到了较大增长,高性能计算已经孕育了一个较为庞大的市场。
同时,国内高性能计算中心和超级计算中心建设得到了各方面的关注,不同级别、不同领域、不同模式的高性能计算中心建设项目不断涌现,并已经成功建设了以上海超级计算中心为代表的大型高性能计算中心。
建设高性能计算中心不仅仅是采购高性能计算机系统,还包括基础设施建设、运营维护、业务拓展、对外合作等多种内容,但选择高性能计算系统依然是最为重要的内容之一。实践证明,超级计算机系统的研制厂商一般对高性能计算中心的建设有着较大的影响,计算中心的建设者和计算机系统的提供厂商需要保持密切的合作关系。
对于国内的高性能计算中心建设项目来说,需要国产高性能计算机能够满足日益发展的需求,厂商能够提供满足项目建设所需要的计算机系统和方案,并能够参与、协助计算中心各个环节的建设。2. 高性能计算中心建设项目需求
根据相关数据的统计,每2-3年,高性能计算机系统的峰值性能会提高一个数量级。现在高性能计算中心建设,一般都选择性能在10Tflops以上的计算机系统,大规模的计算中心可能需要百万亿次、乃至千万亿的计算能力。
从世界范围来看,当前高性能计算机的体系结构包括机群(Cluster)、大规模并行处理系统(MPP)、星群(Constellations)等,机群逐渐成为市场主流。但普遍认为,简单的机群体系结构在扩展性、空间、散热、效率、功耗、可靠性、可管理性等方面受到诸多限制,很难在以上指标保持良好的情况下延续到百万亿次或千万亿次(Petaflops)。
高性能计算中心的计算机系统需求可以概况为:
1) 高性能,一般峰值性能至少为数万亿次;
2)可扩展,需要可扩展到数十万亿次、百万亿次;
3)先进性,采用较新的技术和架构,简单的瘦节点集群架构一般不理想;
4) 普适性,采用通用处理器;配置瘦节点和胖节点;
5)高效能,配置高速Infiniband网络,并行文件系统;
6) 易管理维护,易使用,需要整体的监控控制系统,作业调度系统;
7) 低功耗,需要采用全方面的节能降耗措施,将系统功耗降到最低。
8) 低TCO,3. 曙光5000高效能计算机解决方案
在成功研发曙光5000A的基础上,曙光公司进行了多方面的整合和后继研发,推出了曙光5000系列高效能计算机。
曙光5000在目前最为主流的集群架构上进行了创新,实现了“超并行”体系结构(Hyper Parallel Processing,简称HPP)。
曙光5000的计算节点采用曙光全自主研发的第四代刀片服务器,可以选择Intel或AMD平台,2路或4路计算节点。为了满足大内存或共享存储模式应用的需要,曙光5000可以选择配置胖节点,在单台服务器内实现更大的内存和并行进程数。
在互联网络方面,曙光系统可选择3套互联网络:
1、高速Infiniband主干网络(高速计算、存储网):
20Gb/s Infiniband,non-blocking,全部节点互联;
2、分区全线速无阻塞千兆以太网:
分区全线速Gigabit Ethernet,万兆冗余级联,全部节点互联;
用于部分采用Ethernet进行科学计算的应用,非通讯密集型的科学计算,可以作为Infiniband网络的备份。3、千兆管理网络:
连通所有节点,不要求线速;
用于系统管理、监控、数据下载等。
为了提高系统IO性能,形成较大的IO聚合带宽,在存储系统上,曙光5000配置SAN光纤存储网络,配合并行文件系统,可以为各种应用提供高速的IO访问请求。
曙光5000上将部署Gridview高性能计算机操作系统;Gridview整合了系统的管理、监控、作业调度等多种功能,B/S架构,将极大简化系统的管理和使用。
在系统冷却方面,可以选用风冷或水冷方式,根据需要选用曙光5000普通机柜或水冷机柜。
4. 曙光5000A系统简介
由中科院计算所和曙光联合研发的曙光5000A高效能超级计算机于2008年成功推出,整个系统峰值性能达到230Tflops,实测Linpack值180.6Tflops,是目前国内性能最高的通用超级计算机,并在2008年11月份公布的数据中,进入了世界的前十名。
曙光5000A实现了诸多创新。在体系结构、多处理机芯片组、高性能节点操作系统、高可扩展互连网络、高吞吐率通信软件、多线程分割全局地址空间编程模型及编译器等核心技术上实现了较大突破;并提供高效能计算机的高密度节点、可靠的系统结构、虚拟化软件、高效能海量存储、并行文件系统、大规模系统的管理软件、系统级鲁棒性技术、超大规模并行算法等产品及技术。
曙光5000A具有“四高两低”的技术特点,“四高”具体表现为高性能、高效能、高密度、高可靠;“两低”表现为低价格、低功耗。
曙光5000A是定位于高效能的计算机系统,高效能包含了高性能、可编程性、可移植性、稳定性等多个方面的要求,高效能代表了高性能计算机研究的新方向。
曙光5000A是完全自主知识产权的国产超级计算机,在系统的研制过程中,曙光公司已申请了50项发明、实用新型及外观专利,并申请了近16项软件著作版权登记。