飘石科技主要从事EDA(电子设计自动化)软件的开发,用于辅助集成电路设计师完成自动化的芯片设计。在芯片程序开发期间,程序分段处理,每段程序在开发期间需同时处理多个小任务,通过调度软件自动实现任务的调度和结果的回收,最终整个程序完成统一处理。考虑到需要极高的计算性能、和复杂繁琐的调度管理,采用高性能计算集群是最理想的解决之道。
飘石科技决定采用高性能集群服务器,实现高性能并行计算应用分析。同时考虑到集群拥有最高的性能价格比,极高的可扩展性、可根据后续工作量的加大而适当增加节点数,同时还具有很好的可管理性,维护成本远远低于小型机。
五舟立足于在HPC领域的成功案例和经验,通过对客户应用方向的需求分析,同时兼顾后期更大规模网格计算的扩展需要,针对性的推出了采用双路AMD Opteron双核处理器为计算节点的SA4210 HPC应用方案,在RedHat Linux AS 4.4 64 bit系统平台的基础上,采用OSCAR中间件实现节点管理、任务分发和集群监控,使用以太网的优化通信库模块来实现节点之间的进程通信,再加上一套完整的优化编译工具和函数库等软件来优化应用,使系统的性能得到充分的发挥。
系统方案图:

SA4210节点服务器支持AMD最新的双核处理器,采用两颗Opteron2212处理器,单节点高达4GB的海量内存可为并行运算提供强大的缓存支持,双1000M网络接口设计可有效实现冗余保护和负载捆绑,先进的高性能服务器集群系统,具有实时多任务并行操作的高性能、高可用性、高稳定性、可靠性、可扩展性等优势。
方案中存储部分采用独立的NAS方案,集中存储、易于管理维护。NAS设备采用五舟L1600 NAS,最大支持16位硬盘,最大容量高达16TB(RAID0模式下),集群中整个数据统一放在L1600中,即便整个集群系统瘫痪,数据不受任何破坏。并且在五舟L1600 NAS上分别独立组建两组RAID5,实现二组阵列数据的完全备份,将数据安全级别进一步提高。在NAS与节点之间,采用双千兆网卡互载均衡方式和1000M交换机连接,有效提高数据传输。
项目实施与应用的结果表明:我们针对飘石科技的项目特点,设计的这一整套符合软件开发要求的集群方案,整合了一系列的优化工具、编译工具、集群工具(如Intel C/C++编译器、Total View调试工具、Intel Vtune调试工具、Intel Cluster Tools集群工具)等众多高性能计算组件,为IA架构、标准互联的高性能计算系统应用提供高效率的保证,成为本次HPC项目成功实施的关键,充分满足了用户对设计工作的计算要求。