神威太湖之光——世界超算冠军


学 :16340022
【数据科学与计算机学院】 http://sdcs.sysu.edu.cn/


在每年6月和11月发布的超级计算机排行榜上,“天河二 ”自2013年至去年连续六次排名第一。而在今年六月发布的榜单上,由国家并行计算机工程技术研究中心研制的超级计算机“神威太湖之光”以超第二名“天河二 ”近三倍的运算速度夺得第一,也成为世界上首台运算速度超过十亿亿次的超级计算机。


组成结构

首先介绍一台超级计算机的组成。

超算系统可以分为软件系统和硬件系统两部分。

超级计算机硬件系统主要由高速运算系统、高速互连通信 络系统、存储系统、维护监控系统、电源系统、冷却系统和结构组装设计等部分组成。具体来说:

高速运算系统负责逻辑复杂的调度和串行任务和并行度高的任务,可以是采用同构计算(纯CPU组成计算节点),也可以采用异构计算(CPU+加速器组成计算节点);

高速互连通信 络由infiniband、高速以太 、自定制互联机制构成,将所有计算节点连接起来,使其成为一个整体;

存储系统由内存和外存组成,负责数据交换和储存;

维护监控系统保障超算不死机、不出错,毕竟每隔几秒出一次错,死一次机,这种足以让超算的使用者精神崩溃;

电源系统包装能源供应;

冷却系统帮助超算降温,防止出现超算过热而造成的不良后果;

结构组装设计是将上述系统装载到一起,在保障性能和稳定性的基础上,实现机柜体积最小。

超级计算机软件系统主要包括操作系统、编译系统、并行程序开发环境、科学计算可视化系统等四个重要组成部分。具体来说:

操作系统系统主要包括对同构技术或异构协同支持,高效能支撑扩张,基础服务内核,全局并行文件系统;

编译系统的功能是支持C、C++、Fortran77/90/95等编程语言,支持OpenCL、OpenMP、MPI等并行编程语言,支持编译优化;

并行程序开发环境的功能是提供程序接口,支持应用程序的调试和性能分析;

科学计算可视化系统由海量数据服务模块、并行绘制与显示模块和可视化映射与操作模块组成。

因此,运算系统、存储系统、互联系统、操作系统、基础库、应用软件,以及监系统控、冷却系统、电源系统等都是超算的重要组成部分。因此,一些人称因国产超算使用美国Intel的CPU,因而不具备技术含量,将CPU等同于超算的全部技术的说法显然是非常不科学的。

而“神威·太湖之光”所有核心部件全国产化。它由40个运算机柜和8个 络机柜组成。每个运算机柜比家用的双门冰箱略大,打开柜门,4块由32块运算插件组成的超节点分布其中。每个插件由4个运算节点板组成,一个运算节点板又含2块“申威26010”高性能处理器。一台机柜就有1024块处理器,整台“神威·太湖之光”共有40960块处理器。


主要特点

“神威太湖之光”超算拥有40960个计算节点,使用了上海高性能集成电路设计中心设计的国产众核芯片申威26010,采用28nm制程工艺,主频1.45G,拥有260个核心,双精浮点峰值高达3.06TFlops,在双精浮点上完全追平了Intel最好的超算芯片。正是得益于国产众核芯片申威26010的强悍性能,加上良好的体系结构设计以及互联 络等核心部件,使超算拥有异乎寻常的高性能、高效率、低功耗、高性能功耗比和小体积:

高性能:神威太湖之光双精浮点峰值高达125PFlops,稳定性能为93PFlops,相比较之下,美国超算泰坦的双精浮点峰值高达27 Pflops,稳定性能为17.6 PFlops,天河2 的双精浮点峰值高达54.9Pflops,稳定性能为30.65PFlops,由此可见,“神威太湖之光”在稳定性能是美国超算泰坦的5.2倍(泰坦很可能是美国现在顶尖的超算之一,完成升级的Stampede2性能为18PFlops)。

高效率:“神威太湖之光”整机效率高达74.16%,相比较之下,美国超算泰坦的整机效率为65.19%,而河2 的整机效率为55.83%,由于超算性能越强,规模越大,整机效率提升就越困难,“神威太湖之光”在稳定性能是美国超算泰坦5.2倍的情况下,整机效率依然大幅优于泰坦,整机效率之高简直令人惊骇!

低功耗:“神威太湖之光”的功耗为15.3 MW,美国超算泰坦功耗为9MW,天河2 为17.8 MW,可以说,“神威太湖之光”的稳定性能达到天河2 3倍的水平,但整机功耗却低于天河2 。

性能功耗比高:“神威太湖之光”的性能功耗比高达6G/W,相比之下,TOP500超算榜单上的竞争对手都相形见绌天河2 的整机性能功耗比为1.95G/W,美国泰坦超算的性能功耗比为2.143G/W,美国超算红杉整机性能功耗比为2.069G/W,日本超算“京”整机性能功耗比为0.830/W,美国超算Mira整机性能功耗比为2.069G/W(Mira和红杉用的都是IBM的Power)……即便是全球Green500排行榜,“神威太湖之光”也能排至第三位。由于Green500排行榜第一和第二的超算只采用了低功耗版的Intel E5,性能非常弱,而即便是采用英伟达K80加速卡的超算,其整机性能功耗比也只有4.7G/W。因此,“神威太湖之光”在性能功耗比上显得格外耀眼。

小体积:“神威太湖之光”机柜占地605平方米,美国超算泰坦机柜占地面积404平方米,天河2 机柜占地面积720平方米。


研制意义

依托“神威·太湖之光”,以清华大学为主体的科研团队首次实现了百万核规模的全球10公里高分辨率地球系统数值模拟,这一成果将全面提高我国应对极端气候和自然灾害的减灾防灾能力;国家计算流体力学实验室对“天宫一 ”返回路径的数值模拟结果令人振奋,将为“天宫一 ”顺利回家提供精确预测;上海药物所开展的药物筛选和疾病机理研究,短短2周就完成常规需要10个月的计算,大大加速了白血病、癌症、禽流感等方向的药物设计进度。

多方评价

“中国已在这场比赛中大幅领先”,美国劳伦斯伯克利国家实验室副主任西蒙称,超级计算机系统的每一部件均在中国本土制造意义重大。该实验室是超级计算机的主要用户,协助编制全球超级计算机500强名单。“TOP500” 站评论说,“神威·太湖之光”的性能结束了“中国智能依靠西方技术才能在超算领域拔得头筹”的时代。

“凭借一套搭载本土自主研发处理器芯片的世界一流超级计算机系统,中国巩固了在这一计算机最高领域的领导地位。”《华尔街日 》20日称,“神威·太湖之光”是中国首台未使用美国芯片技术且运行速度排名世界第一的计算机。

还有一些外国 友的表现:

这里写图片描述

结语

虽然“神威太湖之光”在整机性能、整机功耗、整机效率、性能功耗比等重要参数上无与伦比,但也并非尽善尽美,它也有自己的阿克琉斯之踵其内存只有1.31 PB(天河2 为1.4PB)。另外,由于国产众核芯片内存带宽仅有136.51G,而且用的还是DDR3,相比之下,Intel的KNL和英伟达的Tesla都采用3D堆叠内存,内存带宽更是达到512G(Intel PHI) 和 720G(英伟达 Tesla)。因为单个CPU的内存带宽不大,所以对于现实生活中的应用,很难跑出接近峰值的性能。对于某些对内存带宽要求高的应用,实际使用中就不如Tesla和PHI了。

不过,这并非申威26010和“神威太湖之光”的硬伤,得益于申威26010异乎寻常的设计理念,使申威26010单芯片能够完成Intel E5+PHI,或Power+Tesla两款产品的功能,而且相对于Intel E5+PHI,或Power+Tesla,申威26010能够实现共享内存,这就避免了Intel E5+PHI,或Power+Tesla必须面对的显式拷贝,从而降低了对内存的压力,并减小了性能损失。笔者猜测,正是因为申威26010异常先进的设计理念,一定程度上弥补了内存上的不足,使中国科研人员敢于采用136.51G的内存方案。

虽然有内存上的瑕疵,但瑕不掩瑜在美国的100P超算问世之前(估计要2018年前后),“神威太湖之光”会是全球性能最好的超算。



世界上最完美的公式

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2016年9月6日
下一篇 2016年9月7日

相关推荐