高性能计算走向能效均衡时代
3093
2016-06-04 20:50
文章摘要:  从最新的Top 500排行榜上看,美国依然处于绝对领先的地位,有257套系统上榜,在Top 10中占6套,其中前5套竟然全部安装在美国。中国有12套系统上榜,上榜数量相比去年11月的10套小幅上升,但性能最好的胜利油田系统仅位列第111位,排名比去年有所下降。   从供应商角度看,IBM和HP成为最主要的HPC提供商,分别有209套



  从最新的Top 500排行榜上看,美国依然处于绝对领先的地位,有257套系统上榜,在Top 10中占6套,其中前5套竟然全部安装在美国。中国有12套系统上榜,上榜数量相比去年11月的10套小幅上升,但性能最好的胜利油田系统仅位列第111位,排名比去年有所下降。


  从供应商角度看,IBM和HP成为最主要的HPC提供商,分别有209套和183套上榜,运算总性能分别达到Top 500的47.7%和22.4%,优势明显。


  从上榜系统来看,Top 500采用的主处理器主要集中于Intel、IBM和AMD三家。其中基于IA架构(Intel架构)的有257套,基于4核至强处理器的系统从0增长到161套。而基于AMD处理器的系统大幅减少,采用Sun和Alpha处理器的机器已经彻底从Top 500上消失。


  千万亿次:平淡中的惊喜


  新的排行最引人关注的是IBM Roadrunner系统以1026TFlops(峰值性能1376 TFlops)的性能超过了从2004年11月以来就排名Top 500首位的BlueGene/L(蓝色基因/L)系统,并成为Top 500历史上第一套Linpack运算能力达到1千万亿次(1petaflops)的系统。Roadrunner系统由6480个Opteron处理器和12960个Cell处理器组成,造价1.2亿美元,重达250吨。


  不过值得注意的是,Opteron处理器只提供了44Tflops的运算能力,而Cell芯片则贡献了1332Tflops(峰值)的性能,因此,在Top 500官方网站上将其系统处理器的类型设定为Power系列也就不足为奇了。


  Roadrunner采用的是集群(Cluster)结构,并没有什么新奇,但混合结构带来的Linpack性能提升还是非常明显的。尽管性能可观,这种系统的性能发挥则需要依赖高效的软件系统,其复杂性可能给其应用带来一定的局限性。连Roadrunner的首席工程师也承认,后续版本将推出新的编程语言和实时编译器技术以进一步完善整个系统。


  首次引入能耗指标


  与HPC跨越千万亿级相比同样引人关注的是,本次Top 500还引入了系统能耗这一新的指标。Top 500评委会要求系统拥有者测试系统在运行Linpack程序时的这一数值。


  而性能与系统能耗的比值——能效值更能体现系统的运行效率。不过,由于能效值受系统整体功耗、Linpack效率、并行规模、测量方式等很多因素影响,目前还很难有一个很科学、公平的衡量方式,因此,本次Top 500并未统一给出这一指标。但Top 500还是统计出了能效最高的一些系统单元。


  IBM的Cell刀片系统QS22能效值达到488Mflops/s/W居首,BlueGene/P系统为371Mflops/s/W,紧随其后的是基于Intel Harpertown的四核系统,包括IBM的BaldeCenter HS21(低电压至强)、SGI Altix ICE 8200EX和HP 3000系列BL2×220,能效值分别为265 Mflops/s/W、240 Mflops/s/W 和227 Mflops/s/W,这已经超越了IBM BlueGene/L系统的210 Mflops/s/W。


  从中可以看出,采用低电压处理器和刀片单元成为高能效系统重要的保证,这一点对于大规模的HPC系统来讲尤其重要。


  系统均衡性更加重要


  高性能计算从原理上来分主要有容量计算和能力计算两大类,这两种类型的计算对于系统的要求是完全不同的。因此,节点机处理器的性能、互联网络、存储I/O表现,都会直接影响到系统的最终性能。


  选择与应用匹配的系统网络架构是至关重要的。随着节点机处理能力的上升,快速的互联网络对系统表现的影响越来越重要。从此次上榜的高性能计算机来看,采用Infiniband互联的系统达到了121套,仅次于采用千兆以太网的284套。其中排名首位的Roadrunner即采用了Infiniband。而大多数Linpack效率高的系统也都采用了Infiniband互联架构(除专用结构外)。


  通用与专用加速


  在性能和功耗的双重压力下,HPC的计算系统面临着全面的升级。


  在主芯片层面,处理器的多核化是实现高性能和低功耗的最重要手段;而刀片服务器和加速器作为节点机的应用预计也将会越来越多。


  所谓的加速器,是指分解出算法的某些部分,在特定硬件上运行,利用其高度并行化和硬件结构简单因而能耗低的优势以大幅提高系统能耗比,从而提高计算效率。比较典型的加速器是FPGA器件和GPU,Roadrunner系统采用的Cell处理器也可以被看做是某种类型的加速器。


  尽管加速器作为单体来看确实能够大幅提高节点内部的计算效率,但这些特殊结构给高性能系统整体带来的影响可能非常复杂。指令集匹配、混合编程和与其他计算节点的协调都是可以想像得到的难题。从目前来看,这些加速器的使用还是在特定的领域和范围内实现比较现实。不过,随着多核处理器、互联和软件技术的不断发展成熟,这些特定加速器的效能会逐渐激发出来,某些专用加速器甚至可能会成为通用处理器的一部分,其可用性也会逐步提高。


  未来的方向


  尽管Top500被作为全球高性能领域最权威的榜单,但也并不能够完全反映高性能计算在更广大市场的应用发展方向。抛开单纯的硬件性能,系统复杂、对软件和应用开发要求高甚至成本这些非技术因素都影响着HPC系统的普及推广,这也是IBM的BlueGene和Cray XT3/XT4等定制系统并未在中低端市场应用的一个重要原因。而高性能计算的商业化应用越来越广泛是一个不争的事实。


  多核和混合异构系统是今后HPC系统提高性能、降低功耗很重要的技术手段,但其面临的软件挑战是相当严峻的。不过,业界还会沿着这条道路不断地努力下去,毕竟,多核和混合系统已经逐渐显露出其巨大的潜力。


  总体来看,最新一期的Top 500让人稍感平淡,我们并没有看到新的革命性体系架构的出现,新的混合结构的前景也并不十分明朗,但至少留下了一个值得思考的话题。正是这些不确定因素,勾勒出了高性能计算甚至是IT产业发展的真实轨迹。



版权声明:

凡本网内容请注明来源:T媒体(http://www.cniteyes.com)”的所有原创作品,版权均属于易信视界(北京)信息科技有限公司所有,未经本网书面授权,不得转载、摘编或以其它方式使用上述作品。

本网书面授权使用作品的,应在授权范围内使用,并按双方协议注明作品来源。违反上述声明者,易信视界(北京)信息科技有限公司将追究其相关法律责任。

评论