揭秘太湖之光

1超算界的角斗场：TOP500是什么span>

1946年，由美国军方定制的电子计算机“ENIAC”面世，当时的这个“大家伙”每秒可执行5000次加法或400次乘法运算。经过了70年的发展，超算的运行速度已经达到亿亿次/秒级别。在今年6月的ISC 2016上，TOP500公布了新一届世界冠军：神威·太湖之光。有人不禁会问，这款超算究竟有何能力超过天河二处理器申威26010，又是怎样的秘密武器p>

超算界的角斗场：TOP500

自1993年以来，国际TOP500组织每年都会按照Linpack测试性能公布全球已部署的前500台超算，每年会有两次排名，旨在促进超算领域的交流和合作，推广应用。由于在2002年之前，中国HPC（高性能计算）未曾向国际申过Linpack结果，因此没有被列入TOP500。后来，随着相关机构陆续开放测试，中国开始在国际超算市场崭露头角，迅速成为前10名的常客。

Linpack最早在1974年4月被使用，是当前最流行的用于测试高性能计算机系统浮点性能的基准，通过超算求解N元一次稠密线性代数方程组的方式做出评估。Linpack测试包括Linpack100、Linpack1000和HPL。其中，HPL被称为高度并行计算基准测试，是针对现代并行计算机提出的测试方式，应用范围更广。

计算峰值是衡量计算机性能的一个重要指标，所谓的浮点计算峰值分为理论值和实测值，前者是计算机理论上每秒能完成浮点计算的最大次数，主要由CPU主频决定，后者是Linpack测试值，即在计算机上运行Linpack测试程序，通过一系列调校得到的最优测试结果。

在德国法兰克福举行的第47届国际超算大会上，一串带有中国特色的英文“TaiHuLight”成了全场焦点，它的官方名称是“神威·太湖之光”。这款超算以93Petaflops的Linpack峰值能力压天河二，领跑TOP500，与它一起出名的，还有国产处理器申威26010。值得一提的是，中国上榜的HPC数量（167台）也首次超过了美国（165台）。

太湖之光的整机效率达到74.16%，相比之下泰坦为65.19%、天河二为55.83%，这在性能愈强、规模愈大的情况下，是很不容易的。性能功耗比方面，太湖之光的成绩为6G/W，泰坦为2.143G/W，天河二为1.95G/W。此外，太湖之光在Green500也跻身三甲，考虑到排在前两位的超算搭载的是低功耗英特尔E5，因此这一成绩值得肯定。

整体来看，太湖之光的架构应该是沿用了蓝光的MPP（大规模并行处理）分布式方案，更符合传统的HPC应用，效率更高。太湖之光由40个计算机柜组成，每个机柜有4个SuperNode（256个节点组成），共拥有40960个节点，每个节点单CPU有260个核心，主板为双节点设计，每个CPU固化的板载内存为32GB DDR3-2133。

至于机房摆放，太湖之光采用了两侧各20个计算机柜和存储机柜、中间单列络系统机柜的布局，占地面积605平方米。

3申威26010扬名摆脱国外技术依赖

国产申威26010的秘密武器

除了太湖之光夺冠，其实更令人兴奋的是其采用了国产处理器申威26010，可以说有着一定的历史意义。2015年4月，美国商务部发布公告，决定禁止英特尔向四家国家超级计算机中心出售Xeon Phi处理器。而在此之前，曾经的TOP500冠军天河二采用的就是Xeon系列处理器。这意味着，天河二将无法继续使用英特尔提供的用于升级系统的新款芯片。

然而，申威26010的出现击碎了外界对于国产化的质疑。与此同时，这款处理器也带来了一个“新名词”：众核。超算界早已对以GPU、众核为代表的异构计算持开明态度，GPU应用的场景越来越多，在算法上也有了更多的支持。从长远来看，异构集群对超算的重要性会加大，在确保灵活性和软件兼容性的前提下，追求更高的性能和更低的功耗。

一直以来，HPC的发展离不开军用和科研，太湖之光也不例外。事实上，申威在业内早有耳闻，但为什么外界鲜有人知呢原因或许就是军方背景。申威系列芯片的研发单位是江南计算机所（即总参某部56所），而申威26010就是在国家高性能集成电路（上海）设计中心生产，被部署于无锡国家超级计算中心。总参某部56所创建于1951年6月，位于无锡。

申威26010采用了“CPU+加速器”的方案（管理核心+运算核心），为64位RISC（主频1.45GHz），拥有260个处理核心和4个内存控制器。处理器内包括四个核心组，每组有65个内核，由8×8 Mesh架构计算集群（CPE）、一个管理单元（MPE）、一个内存控制器（MC）组成。其中，MPE和MC也可以被当作独立的处理核心，前者负责系统管理和通讯，后者则用于浮点运算，单个内存（128bit的DDR3）带宽为34GB/s，因此整个处理器提供了136.5GB/s的带宽。

此外，申威26010可能并非采用NUMA（非统一内存访问架构）架构，这使得处理器组内之间的内容共享成为可能，在硬件方面没有缓存的一致性需求，由软件负责同步。相比之下，英特尔Kight Landing则是将缓存一致性（Cache Coherence）都交给硬件。从性能来看，申威26010的双精浮点峰值为3.06TFlops，与Kight Landing处在同一水平线。

不过，作为完全自主的国产处理器，申威26010也面临着一些问题。首先就是制造工艺，有人猜测28nm，尽管并不是官方说法，但相较英特尔的14nm还是有些落后。其次，太湖之光的HPCG（High Performance Conjugate Gradients）成绩也一般，峰值效率为0.3%，低于天河二的1.1%。

借助太湖之光，国家计算流体力学实验室对“天宫一 ”返回路径进行了数值模拟计算，将为其返回提供精确预测；上海药物所开展的药物筛选和疾病机理研究，两周内就完成了原本需要10个月的计算，加速了白血病、癌症、禽流感等疾病的药物设计进度；此外，太湖之光还将在“高分辨率海浪数值模拟”和“钛合金微结构演化相场模拟”方面做出巨大贡献。截至目前，国家超级计算无锡中心已经与北京大学、中科院软件所、中船重工702所、远景能源、清华大学、国家计算流体力学实验室等国内30多家机构或单位建立了应用合作关系。

除了国家级研究机构的贡献，以联想、曙光等为代表的中国企业也在超算领域有着很好的表现。最新一期TOP500中，联想就以92套获得了全球超算份额第二、中国第一的成绩。未来，超算将朝着高性能、低功耗的方向继续拓展，芯片设计、任务分配、算法优化、应用范围、散热系统等依然是努力的重点。

当然，在欢喜的同时，中国超算的配套硬件和实际应用仍有较大的提升空间，太湖之光的成绩固然亮眼，但应用数量还不能与天河二相比。软件方面，太湖之光解决特定领域的问题可以，毕竟都是专为申威处理器优化过的，但要涉及商业或其他领域，就必须考虑兼容性。目前，国内超算研发经费中用于开发应用软件的占比不到10%，而美国则在30%以上。如果不能融入商业用途，其实也是一种资源浪费。

自1983年的“银河一 ”诞生以来，中国超算从一片空白，到自主研发领跑全球，其中的巨大进步值得赞誉，这是成为科技强国的必经之路。而一路走来，质疑之声也从未间断，但无论怎样，每一项技术创新都会有学习的过程，不怕起步晚、走弯路、困难多，有了完全自主的技术支持，太湖之“光”将让中国超算更加闪耀。

5附：更多关于太湖之光及TOP500信息

附表：（内容来自Jack Dongarra的告）

神威太湖之光系统参数：

六款超算对比：

最新一期TOP 500前10位的超算：

文章知识点与官方知识档案匹配，可进一步学习相关知识Python入门技能树人工智能机器学习工具包Scikit-learn213117 人正在系统学习中相关资源：…智慧农业信息化建设解决方案-管理软件文档类资源-CSDN文库

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

[转帖]揭秘太湖之光

揭秘太湖之光

1超算界的角斗场：TOP500是什么span>

3申威26010扬名 摆脱国外技术依赖

5附：更多关于太湖之光及TOP500信息

相关推荐

3申威26010扬名摆脱国外技术依赖