中国教育科研网格ChinaGrid计划,是教育部在“十五”211工程公共服务体系中设立的重大专项,目标是在2010年通过网格连结211工程的100所重点高校,实现100所高校在中国教育科研网格上各类资源的互联互通和共享,成为中国乃至世界上最大、最先进、最实用的教育科研网格。
重庆大学为解决自身科研项目对高性能计算的需求,和奠定其在中国教育网格系统西南节点的枢纽地位,联合国内服务器厂商中的领军企业曙光公司,结成战略合作关系,共建高性能计算联合实验室。曙光公司采用曙光4000A高性能计算机机群系统,同时配有高性能的存储系统和软件操作系统,为重庆大学成功搭建了性能优异的网格系统。
曙光公司为重庆大学构建的网格计算平台整体峰值计算能力达到每秒5500亿次,其中包括机群服务器、SMP计算机、外存储系统、视频服务器,和外存储系统等硬件设备。为了避免单点故障,I/O节点采用双机高可用架构,同时系统还配备了丰富的网格系统软件和各种应用软件。
作为拥有众多理工学科的综合性大学,重庆大学不可避免的要利用网格系统做大量的图象处理、流体力学计算、生物信息运算等大规模科学计算。这也对网格系统的计算能力提出了极高的要求。曙光公司在整个网格系统中的28个计算节点,和2个兼任管理节点和登录节点功能的存储节点中,配备了具有极高稳定性和超强处理能力的2U曙光天阔机架式服务器A620r-E。各节点拥有两个AMD64 Opteron处理器,其先进的架构体系和Hyper-Transport技术具有访问内存带宽高、延迟低、能力强的优势,在多处理器系统上体现了近乎线性的性能加速比。网格平台中的高性能节点机奠定了整个系统高可用性的基础。
从应用程序的角度出发,为不使管理操作系统与应用程序争夺带宽资源,整个网格系统需要有基于共享内存体系的平台,和基于消息传递模式的平台,以提供对这两种主流程序的支持。曙光公司在网格系统中,节点间采用双网共存的网络架构系统进行连接,计算网络和管理网络分别由全线速千兆和百兆以太网担当,计算网和管理网分开的方式大大提高了系统的效率。
伴随网格系统的成功运行,大规模计算中所积累的各种各样的资料和数据也会越来越多,整个网格系统需要有一个海量的存储空间与其适配。曙光公司在重庆大学的网格系统的搭建中特别配备了独立的外存储设备,整个存储系统采用SAN结构,1套曙光DS-2120F光纤盘阵作为外存,配备4块300G热插拔硬盘,总存储容量达到1.2TB。同时,系统中的可选SCSI RAID配置支持在线恢复RAID阵列,个别硬盘出现故障时也可确保数据安全。
对重庆大学的师生而言,科学研究是最重要的工作,平时没有过多的精力来进行硬件和软件设备的管理。因此众多设备的管理必须非常简单统一,需要保证系统管理的有序性,高效性,避免管理上的混乱。曙光公司在网格平台中配置了曙光4000A监控/SKVM子系统,其是曙光自主研发的、先进的管理监控系统,具备布线更加简单、管理更加方便、使用更加稳定的特点。其可配合机群系统及相应软件提供系统内部温度,直流电源电压等工作状态信息显示。并自动记录主机因故障停止工作的时间和日志信息,帮助分析故障原因。其方便的切换功能使得系统管理员在管理整个机群的时候非常方便。
重庆大学作为非赢利机构的教育组织,信息化系统的性价比是需要着重考虑的因素。基于此,曙光公司考虑到使重庆大学的信息化建设投资达到收益最大化,系统产品均采用标准配置,并可实现平滑升级。比如,作为节点的曙光天阔A620r-E所配备的双核Opteron处理器就可平滑升级至四核,为用户提供更强大的运算能力。由于每个节点都配置了自适应的多块千兆网卡,在今后的升级中可以仅仅增加交换机就可以构造双千兆的网络,增加传输带宽,形成动态分配系统。并且,由统一标准的中间件构成的网格平台,可完全与各类软、硬终端产品实现互联互通,保证了资源的充分共享。
教育网格系统应用的研究、开发和部署方兴未艾,重庆大学的加入必将起到积极的作用。其通过曙光公司精心打造的网格系统,整合校园内高性能计算资源,消除了信息孤岛,充分调动了各处信息化资源的运算活力,体现了中国一流大学所应具有的信息化实力。