印度理工学院坎普尔分院在红帽企业Linux(RHEL)上设置了任务关键的高性能计算动力中心(High Performance Computing powerhouse)
使用32个节点和96个节点的集群系统支持开展国家重点研究项目
背景资料
行业:学术界
挑战:
• 更新和升级专有的SMP-UNIX架构
• 配置一个可以进行尖端研究项目的高性能计算环境
• 简化行政管理和系统管理
解决方案:平台:红帽企业Linux(RHEL);硬件:AMD64 和 Intel 32位PC服务器
收益:
• 通过64位x86服务器提高了性能并改善了整体计算时间
• 通过消除专有的许可和RISC硬件的需求大大降低了总体拥有成本
• 可以自由修改和使用源代码
学院简介
印度理工学院坎普尔分院(IIT Kanpur)是由印度政府建立的一流院校之一。该学院的一个目标是开展最高标准的新研究并在技术创新方面占据领先地位,从而为国家的发展做出贡献。印度理工学院坎普尔分院于1959年建立,占地420公顷,素以校园宽敞而闻名。由于该学院在学术和研究领域取得了众多突破性创新,它目前在全球名声大振,极富传奇色彩。
挑战
除了提供正规的本科生和研究生课程外,印度理工学院坎普尔分院对印度的研究开发工作也做出了重要的贡献。目前该学院在维护其现代化研究设施方面面临着巨大的挑战。这些研究设施为学校师生参加国家科研项目提供了巨大的支持。
科研项目涉及到流体力学、分子模拟、语音识别等领域的复杂应用开发。过去该学院主要采用可以运行各种不同UNIX系统的RISC SMP服务器来运行这些极其耗费资源的应用。
随着时间的流逝,印度理工学院坎普尔分院使用的独立的SMP服务器数量日益庞大,它们正以很快的速度达到极限。除了需要购买昂贵的编译器和专有软件组件外,这样一个封闭环境所能提供的灵活性非常有限。同时,由于基础架构需要全天候运行,能否找到本地支持人员也成了学院关心的一大问题。万一失败,寻求校外 IT外包支持是一个痛苦的过程。
在这种状况下,能够处理大量串行或并行数据的高级高性能计算集群(HPCC)成为燃眉之需。
印度理工学院坎普尔分院CSE系教授Dheeraj Sanghi说:“为了满足高性能计算需求,我们正在寻找一个具有顶级性能和稳定性,同时又可以高度支持运行复杂工作需求的操作系统。”
Sanghi补充说:“在校园中开发的某些复杂应用需要连续运行一个多月。如果哪一天系统崩溃了,你可以想像损失会有多大。这不但会使研究项目延期,而且还意味着彻底浪费了几周的计算时间。我们需要一个支持整个校园使用的主流平台,它应该可以将我们对外部服务提供商的依赖程度降为几乎为零。”
解决方案
印度理工学院坎普尔分院于2002年年底开始在高性能计算集群系统(HPCC)前端试用Linux。在用16 个Pentium III服务器在红帽Linux 7 (Red Hat Linux 7)上设置了第一个试验用Beowulf集群后,使用开源平台的好处就显露出来。最初,该集群只是用来作为运行并行应用的试验床。
印度理工学院坎普尔分院计算机中心高级计算机工程师Brajesh Pande先生说:“在此之前,我们只是在非关键业务中使用红帽Linux来运行web服务器、邮件服务器、代理、DNS等应用。”
他补充说:“然而,我们在高性能计算集群试验床上很快看到了令人满意的结果,这充分证明了我们在研究设施中使用高级Linux集群这一投资行为的正确性。”
2004年中期,该学院在由32个低成本x86/32位服务器支持的红帽Linux 9(Red Hat Linux 9)平台上设置了第一个工作用Beowulf集群。由于市场上可以购买到低成本的64位AMD处理器以及嵌入到红帽企业Linux(RHEL)平台中的强大的64位功能,该学院开始考虑购买新的64位设备来添加一个功能更强大的集群。
Sanghi解释说:“由于红帽提供了一个稳定的、通过认证的基础操作系统,而且该系统可与众多64位硬件相兼容,因此在第二个集群项目中我们自然而然采用了红帽Linux。此外,红帽Linux还通过GCC全面支持各种不同的编译器平台。”
2005年,该学院用98 个AMD64 Opteron服务器设置了自己的第二个96个节点的集群,其中的服务器采用了红帽企业Linux 3 (Red Hat Enterprise Linux 3)系统。同时,学院还指定了两名工程师对这两个集群进行全天候管理。
Sanghi补充说:“对我们来讲,没有购买昂贵的RISC-UNIX 64位服务器,而是使用了红帽企业Linux支持的低价位AMD64 Opteron设备是一个明智的选择。因为红帽是市场上最流行的Linux产品,校园中每个人都非常清楚它的复杂精妙之处。实际上,从红帽推出红帽 Linux 5 (Red Hat Linux 5)开始,我们就一直在使用红帽产品并紧跟其发展步伐。”
收益
对印度理工学院坎普尔分院来说,在使用专有的UNIX-RISC服务器时,对高性能计算基础架构进行升级的费用太高。然而,通过使用在非RISC硬件上运行的企业Linux,该学院找到了一个可以提供同样性能、没有任何影响的低成本、可升级解决方案。
Sanghi说:“由于红帽产品风靡校园,不论是老师,还是学生都可以在他们的Fedora或红帽设备上使用开放的标准灵活开发应用。这些应用在开发完毕后,他们可以将其无缝地迁移到高性能计算集群(HPCC)环境中进行计算。”
Sanghi补充说:“红帽还赋予了我们摆弄操作系统的极大自由,而在以前的专有环境中根本做不到这一点。如果系统崩溃,校园中会有人很快搞定。使用红帽系统后,我们彻底摆脱了对专有软件提供商电话支持的依赖性。”
Pande补充说:“使用通过认证的平台(如企业Linux)还有另外一个好处,即,在运行用于资源分配和节点管理的第三方高性能计算集群软件(HPCC)时不会出现任何问题。”
设置这两个Linux集群时有一个关键的需求――增加用户数量。当前,该学院共有100名用户访问高性能计算(HPC)实验室。下半年,这一数字预计会增加到300人。
Sanghi解释说:“在设计解决方案的时候,我们想确认一下是否我们可以最大限度地使用系统的处理能力。由于企业Linux与学院高速服务器的完美结合,我们可以同时支持多个应用和用户。”
使用红帽企业Linux(RHEL)支持的64位高性能计算集群(HPCC)系统这一新环境,计算时间降低了一半。他补充说:“以前应用要运行3~4周,而现在只需要不到两周。”
未来计划
在用已经到位的6 TB SAN来支持64位集群后,印度理工学院坎普尔分院的存储需求正在快速成比例减少。
Sanghi补充说:“红帽全球文件系统(Red Hat GFS)将是一个值得拥有的不错文件系统,我们正在积极考虑这个系统。而且,我们也热切盼望着在下一个红帽版本中能够添加Xen虚拟化(Xen virtualization)、Stateless Linux和SystemTap等新技术。”
结论
由于红帽企业Linux(RHEL)所提供的自由度和灵活性,印度理工学院坎普尔分院设置了两大全国最流行的Linux 高性能计算集群(HPCC),这些集群对下一代研究项目的成功起到了重大的作用。