中国E级别超算系统更多细节曝光,能量效率是目前最大挑战

11月19日在 2018 年高性能计算、网络、存储与分析国际会议(以下简称 SC18)上,高性能计算机及其核心软件”重大专项总体组组长钱德沛对于中国于 2018 年开发的三个 E 级超算(即可以每秒百亿亿次浮点运算的超级计算机)原型机作了一次报告。这四十五分钟的报告不仅验证了我们之前的一些猜想,也让我们更好地了解了中国超算原型机的设计以及基础硬件构造。

钱德沛是国家“863 计划”,“高性能计算机及其核心软件”重大专项总体组组长。在开始正式报告前,他先呈现了中国在 E 级超算方面做出的努力,包括目标与其面临的挑战。钱德沛表示中国希望超算使用的技术都是“可控”的:也就是说大部分软件和硬件设施都是中国制造的。而“可控”这点在这三台原型机上完全可以体现出来。

钱德沛也提到了关于超算的详细目标。譬如,中国希望打造一台拥有以下性能的超算:峰值运算性能可以达到每秒百亿亿次浮点运算的 E 级超算,远超其他国家的 LINPACK 测试值;至少 10PB 的系统记忆存储;一个能提供至少每秒 500GB 的点对点带宽、超算级延迟和可扩展性的互联互通;以及每瓦特能量至少每秒 300 亿次浮点运算的系统效率。

每瓦特每秒 300-亿次浮点运算的效率可以让每百亿亿级运算消耗 33 兆瓦。这相对于美国、日本与欧盟展望的 20 到 30 兆瓦还是有一定差距的。钱德沛也表示能量效率是他们面临的最大的挑战,其次则是应用性能、可编程性和耐久。

钱德沛在 SC18 的报告也是他第一次对外展现超算系统的硬件构成。去年他在日本的报告提供了一些信息,但鉴于那次报告是在这些原型机开发前的,所以其中一部分信息也就不再准确了。

曙光、天河和神威这三个原型机都是在前十个月内完成的;最近的原型机则是一个月前刚刚完成。在钱德沛的描述后,我们更好地了解了这些 E 级原型机的全貌,尽管一些细节还是不够清晰。

曙光原型机

正如我们 10 月份猜测的那样,曙光原型机装备的是超微半导体公司(AMD)许可的海光 x86 处理器。这个设计在中国超算界的优势在于保留了目前正在研发的超算软件的兼容性。

更有意思的是这个原型机使用了 DCU(Deep Computing Unit 深度计算器)作为加速器。这些海光提供的芯片在完全版超算中每个可以提供每秒 15 万亿次浮点运算。但是,他们目前的性能只能达到成品 E 级超算系统的一部分。

在这个 512 节点的曙光原型机,有两个海光 x86 CPU(Central Processing Unit 中央处理器)以及每节点配备两个海光 DCU。但在最近的一次测试中,只有一半的 DCU 被使用了。因为整个原型机的峰值运算性能可以达到每秒 3.18 千万亿次浮点运算。这意味着在原型机里的 DCU 可以进行了大约每秒 6 万亿次浮点运算。虽然这已经不错了,但如果他们想要达到制定的目标的话,他们需要把这个性能翻倍。

曙光希望每个 x86 CPU 在成品E 级超算里提供每秒一万亿次浮点运算。这意味着海光需要增加其第一代“禅”(Zen)CPU 的性能,或者从超微获得“禅 2 ”甚至“禅 3 ” CPU 的许可。

曙光原型机的互联互通是一个基于每秒 200GB 带宽的 6D-Torus 网络。虽然他们希望能够将带宽翻倍,但那仍比每秒 500GB 的目标低每秒 100GB。无论如何,互联互通的实现依赖于光学技术。

曙光另一个有趣的设计是他对大型冷却系统的使用。原型机使用的是 Imm058,一个在 50 摄氏度(122 华氏度)沸腾的冷却剂。这也意味着他比 100 摄氏度(212 华氏度)沸腾的水冷却剂更有效。

天河三号原型机

钱德沛给提供的有关天河原型机的信息是最少的。正如我们在以前猜测一样,天河的处理器是中国设计的高级精简指令集(以下简称 ARM)芯片。这款芯片极有可能是来自飞腾公司(Phytium)的“小米”。

和 2017 年的报告一样,在钱德沛SC18 的报告中,这款芯片只是被笼统的描绘成一款能够平衡计算与内存的全新多核处理器。但是由于中国希望建造一个基于 ARM 的 E 级超算,除非中国改变既定计划,我们可以通过排除法判定这是他们唯一的选择。

如同曙光原型机一样,天河系统是由 512 个节点组成的。其性能为每秒 3.14 千万亿次浮点运算,与曙光几乎一样。这意味天河有着一个强大的处理器。这个处理器接近于神威多核芯片(见上),或者一个更普通但适合每节点四接口设置的处理器。

该网络是有着最多四跳的一个 3D 蝴蝶设计。这是基于消耗低于 200 瓦的高基数路由器芯片。互联互通结构将会采用光电技术,并给成品提供每节点每秒400GB 的带宽。

这个设计同时将故障容许度作为了其特色展示。该技术实现在了互联互通和一个新的未知存储介质里。

不管怎样,这个原型机在很大程度上还保留着其神秘感。

神威原型机

这一台原型机使用了神威 26010 型处理器。该款 260 核心处理器目前被用来驱动世界第三的太湖之光超级计算机。每台原型机节点有两个处理器,每秒可进行六万亿次峰值浮点运算。整个拥有 512 个节点的计算机每秒可进行 3.13 千万亿次浮点运算。

在当前状态下,每个节点可以提供每秒 11 亿次浮点运算。负责神威的工程师们需要提升接近三倍的性能来达到目标超算能效。他们在系统正式上线前的两三年间需要有重大突破才可以达成目标。

神威太湖之光使用了 Mellanox 无限带宽技术作为互通互联结构,然而这台 E 级超算原型机使用了一款提供每秒 200GB 点对点带宽的本土网络芯片。这也契合了中国将所有 E 级超算技术本土化的战略。在此基础上,此款原型机还使用了一个神威存储箱作为它的存储系统。

和其他原型机一样,神威系统也使用了液冷系统,不同的是它的散热更偏向于传统的铜制散热片设计。

后记

这些 E 级原型机不谋而合地使用了512 节点的设计。标准化的大小让科学家更容易公平地比较它们的表现,同时还让这些 E 级原型机具有用于软件开发的每秒千万亿次浮点运算性能。虽然如此,这些 E 级原型机却不能算是 E 级超算计算机研发的基石。

这些每秒三千万亿次浮点运算的 E 级原型机更像是技术测试平台。它们很难在同一代中不借助前 E 级超算(pre-exascale)平台完成量的飞跃。虽然在两三年间我们有可能目睹 E 级超算在中国上线(尽管太湖之光已经可以每秒十亿亿次浮点运算了),但是时间仍然十分的紧迫。从现在看来,在 2020 年前上线首个 E 级超算系统的目标似乎不像两年前那么可能了,即使是晚一年上线也会是一个很难完成的重大成就。

虽然如此,中国在 E 级超算上下的功夫会影响世界超级计算机的研究趋势,这也包括了日常的高性能电脑。在摩尔定律被减慢的当下,高性能运算的意义也被数据分析以及机器学习重新定义。更多的高性能计算机设计和方法会给这个世界带来更大帮助。第一批E 级超算计算机的出现可能也仅仅只是故事的开始。