国家智能计算机研究开发中心 张佩珩 设计曙光系列高性能计算机是中科院计算所的看家本领,其10个研究实体之一——高性能计算机研究中心的任务就是研究和开发高性能计算机。从最早的李国杰院士亲自参与设计的曙光1号,到后来的曙光1000、曙光2000-I、曙光2000-II、曙光3000、曙光4000,直到此次冲进Top500的曙光5000A,中科院计算所始终提供着最为重要的技术支撑。 2006年10月,中科院计算所作为承制单位递交可行性报告,开始研制曙光5000A。这台由科技部立项的高性能计算机被定义为百万亿次高效能系统。它融入了多项计算所自主创新技术,如体系结构、主板、计算刀片、系统管理以及散热设计等技术,最终形成了高性能、高效能、高密度、高可靠性、低功耗、低价格的的技术特征。 曙光5000A的单计算节点还衍生出了PHPC,融入降噪设计的单节点成为可以被广泛用于办公室等环境的个人高性能计算机。 研制一代的同时还要预研一代,本着这样的设计原则和渐进式发展路线,曙光5000A既在体系结构等方面继承了曙光4000的一些成熟技术特征,同时也进行了一些开创型的全新设计。同时,曙光5000A不仅要完成其本身的设计指标,同时也要承担起为下一代计算机探路的重任。曙光5000A的百万亿次研制工作已经完成,并随即提供给上海超级计算中心使用,而其千万亿次的预研任务也处于最后的调制阶段。 从2009年开始,计算所开始着手被命名为曙光6000的千万亿次高性能计算机的研发工作,预计到2010年研制完成,并计划提供给国家华南超级计算中心。曙光6000将采用计算所自主创新设计的HPP体系结构,H代表了超节点、超并行的意思。提出新的体系结构,就是要把自主研制的国产处理器龙芯引入到曙光系列高性能计算机当中。 直观地说,曙光6000的计算节点在HPP体系结构下是异构的,既有x86处理器,也有龙芯处理器,各司其职。龙芯的指令集与x86指令集不一样,而当前用户应用的应用软件却大多是基于x86指令集的。为了解决用不兼容的指令集来兼容用户的应用软件的问题,该节点用x86处理器来运行操作系统,以实现软件栈兼容,用户的编译和应用提交给x86处理器,再由x86处理器在后台将任务分发给龙芯处理器,用户的使用习惯无须发生任何改变。 曙光6000的发展代表了未来发展的“异构”趋势。曙光4000、曙光5000A,都是同构集群,在更大规模的扩展中,将遭遇越来越多的问题,尤其是能耗问题。异构实现的目标之一就是控制能耗,不会发生能耗伴随性能线性增长的情况。 曙光6000引入龙芯3处理器,除了有自主研制的原因之外,更多的也是考虑它的低功耗:已经开始流片的龙芯3二代产品为8核处理器,而功耗却控制在30瓦左右,这要明显低于主流的x86处理器。处理器的混合使用,就如同给曙光6000引入了混合动力。 |