方案概述:
目前在国内服务器市场中高性能集群式服务器的应用越来越广泛,气象、石油、生物、核模拟、科研、国家安全、工业设计等行业应用对大规模计算平台的需求持续扩大;互联网的高速爆炸式发展使得服务提供商需要强大可靠、可扩展、同时又极具性价比的大型服务器;移动计算无所不在的发展趋势更需要深度计算的后台服务器支撑;电子商务/企业信息化/电子政务等的迅速发展对高性能服务器的需求。
有鉴于此,航天联志与其核心战略合作伙伴英特尔(中国)公司以及第三方设备及软件厂商共同开发出了极具特色的高性价比的高性能计算机集群服务器系统。
方案特点:
航天联志的高性能计算集群服务器是一种采用IA架构服务器产品为基础构建方式的集群服务器产品,其特点是用高速通信网络将一组多个超跃系列IA架构服务器连接起来,形成松耦合的多处理机系统,就像一个单独集成的计算资源一样协同工作。对于用户系统,集群就是一个整体的并行系统,主要通过消息传递方式实现各主机之间的通信。如果将其与传统上的超级计算机比较的话,它的特点主要可概括为:
●高可用性:将多个结点通过网络连接起来如同一个系统一样提供服务。
●高并行处理能力:多结点间通过并行环境和并行程序设计实现应用的高效并行处理。
●负载均衡:通过在多个结点上实现应用的负载均衡实现。
●管理便捷性:通过集群系统软件和集群管理软件对整个集群实现单一管理。
具体可以概括为以下几点:
一、航天联志的集群服务器产品的单位结点采用了真正的Intel IA架构服务器产品(即航天联志的超跃系列服务器),与其它厂商所采用的第三方厂商的IA产品相比,其管理芯片直接集成在主机板上,提供的全面的硬件系统的管理及诊断功能是其它厂商所无法比拟的:
●其管理功能主要有:
●监控服务器的状况。
●当服务器发生故障时报警并通过各种方式接收。
●帮助诊断服务器故障的基本原因。
●指导修复故障。
●主要的监控功能
●主要元件的电压, 风扇转速, 温度, 和系统硬件可以在第一时间探测系统元件的错误
●服务器管理的元件内建在主板系统之中
●主要的报警功能:
●主动报警,并可以进行相应的配置
●基于系统行为
●内建网络功能和服务器管理软件
●主要的诊断功能:
●系统和元件级别的诊断功能
●元件细节的诊断和确认
●主要的修复功能:
●远程电源控制
●基于温度自动控制
●风扇速度的调整
●与 Intel? SMaRT 工具相互集成
二、航天联志服务器产品提供的业内领先特性包括:
●电源和散热空间
●驱动器稳定技术
●驱动器电源隔离
●主动式气流控制
●指示灯引导诊断
●智能前面板
●验证压力测试套件
●多路径启动
三、航天联志的高性能计算机集群服务器系统采用有一种开放的设计架构,不同于一般厂商比较单一的集群服务器整机或解决方案;而是根据最终用户的具体要求(如对系统构成架构,以及时延和系统处理能力的特殊要求),对整体架构进行全方位的调整优化(定制硬件平台+系统构建平台+技术解决方案)
航天联志高性能计算集群服务器硬件部分主要可分为:集群通信网络(包括:系统传输网络,系统管理网络);单位元(即结点机,主要包括:计算结点,I/O结点,登录结点,控制结点);存储系统。
基础结构图示
||||||集群通信网络:
-系统传输网络
专用于支持结点间进程高速通信的网络,连接集群系统中所有的计算结点,采用高带宽、低延迟的网络传输技术。
-系统管理网络:
专门服务于集群管理通信的管理网络,它连接集群系统中所有的结点,采用可靠性高、背板交换能力强的企业级主干以太网。同时监控集群系统运行环境和软硬件核心部件工作状态等信息的监控网络,采用Intel的网络监控软件以及专用的集群管理软件与其配合对整个集群进行管理。
单位元:
全面采用航天联志的超跃系列IA架构服务器(主要包括32位的至强处理器,64位的安腾2处理器),并且专门针对集群系统的特点进行了系统的优化处理(诸如散热通道、电源控制、安全性等)
-计算结点
运行计算和应用程序,是数目最多的结点,主要性能体现在运算性能上。
-I/O结点
用来连接存储设备或其本身就用来充当存储设备,为所有结点提供高速的网络文件系统服务的结点,主要性能体现在I/O吞吐速率及带宽上。
-登录结点
外部用户可通过该结点登录使用集群,对性能并无特殊要求。
-控制结点
又可称之为前端机,用于系统管理员控制和管理整个集群的,主要性能体现在整体综合性能上。
存储系统:
存储系统为整个集群系统提供网络文件系统的服务,其性能必须满足可靠性高、容量大、I/O带宽高、延迟低等要求。
存储系统分I/O结点和磁盘阵列两部分,I/O结点的配置、个数以及磁盘阵列的类型、容量都可以根据用户的应用类型和需求进行灵活的配置。
航天联志高性能计算集群服务器软件系统部分主要可分为:操作系统、集群系统软件、相关的编程器、优化工具、互联设备驱动程序及监控程序,
-操作系统
采用专门针对IA32位或IA64位集群系统而所开发的专用Linux系统。
-集群系统软件
集群系统管理
为方便对集群的管理与使用,可在主节点上实现对整个集群的管理工作。采用NIS/NIS+对集群的用户进行管理。使用NFS等网络文件系统实现单一用户文件空间,方便用户的使用。使用集群命令控制工具(c3)方便集群的使用与管理:在集群的所有结点或指定结点上运行/停止程序、各结点间的文件同步等。
集群作业调度系统
作业调度系统,可以实现交互式及批作业,并发式进程调度。
-集群并行环境
HPC集群支持两种并行环境MPI及PVM
MPI(Message Passing Interface 消息传递接口)是目前标准的并行环境;通过这种程序设计库,编程者可以使用其编程原理设计出可以在集群上运行的并行应用
PVM(Parallel Virtual Machine 并行虚拟机)是HPC集群中的另一种并行通讯环境;是一个在网络上的虚拟并行机系统的软件包,它允许将网络上基于UNIX操作系统的服务器的集合当成一台单一的"并行虚拟机"来使用。
主要应用对象:
石油:地震资料处理/油藏模拟(CGG/Omega)
气象:数值气象预报(MM5/Grads)
CAE:汽车设计结构仿真(MSC/NASTRAN)、碰撞仿真(ESI)
生物基因计算:基因测序、基因比对(Genescan/Balst)、基因定位
通用并行科学计算平台