英特尔最新计算架构终入主美“极光”超算计划

美国能源部 3 月 18 日表示,美国政府、英特尔和克雷公司(Cray)正在联合打造美国第一台 E 级超级计算机,代号“极光(Aurora)”,预计最早于 2021 年正式在芝加哥阿贡国家实验室投入使用(而中国的超算将在2020年升级到 E 级超算)。

美国这次的项目合同价值 5 亿美元,英特尔击败了 IBM 和英伟达等超算处理器提供商,独家提供基于最新 Xe 计算架构的 GPU,搭配新一代 Xeon 可扩展处理器和 Optane 存储技术。在此基础上,超算制造商克雷公司将提供 Shasta 超算平台和硬件支持。

图丨美国能源部部长 Rick Perry、英特尔首席执行官 Bob Swan 在最新超算合同签约现场(来源:Intel)

“极光”计划最早是在 2015 年出现,当初的设计目标仅有 180 PLOPS 的算力,原本预定在 2018 年交付。主要的算力达成是通过 Xeno Phi 第三代架构,代号 Knight Hill 的计算卡来达成,不过后来因为中国的超算发展计划更激进,使得极光计划被迫回炉重造。

作为重造过后的极光计划中最重要的计算核心,也就是在 2018 年底的“架构日”上,英特尔刚刚对外宣布 Xe 计算架构,该架构聚集了英特尔自 AMD 挖角过来的的多位绘图与计算技术专家的心血,标志着其重返 GPU 领域的决心。新架构将采用 10 纳米工艺,广泛的产品线将覆盖普通消费市场、数据中心、AI 应用、集成和超算等多个领域,预计将在 2020 年正式问世。除此之外,英特尔并没有透露更多具体的技术细节,毕竟还有 1 年多的时间,很多技术细节仍需打磨。

图 | 英特尔架构发展表(来源:英特尔)

可以说,这一次“极光”项目能否成功,除了关乎到 E 级超算冠军竞赛,还关乎到英特尔能否顺利拓展超算业务版图,甚至在 GPU 领域重新立足。

目前,在排名前 10 的超算中,英伟达 GPU 加速器占据了半壁江山,英特尔凭借 Xeon 处理器(CPU)才能勉强与之分庭抗礼。但排名第一和第二的两台超算,“顶点”和“山脊”使用的却是英伟达 Volta GPU 和 IBM Power9 处理器,第三名“神威·太湖之光”使用的是中国自研芯片。

这似乎让 CPU 芯片巨头英特尔倍感压力。比如 IBM Power 计算架构向世界展示了它的强大,而相较英特尔为主的 x86 体系逐渐走向封闭,其在支持 NVLINK 之类的独家规格的同时,也和其他计算架构供货商合作推出了基于 CCIX 界面的 BlueLINK 开放架构,其欲取代 x86 成为 AI 计算领域通用平台的意图非常明显。

随着深度学习等 AI 计算的需求增加,GPU+CPU 的计算架构将变得越来越火热,超算机构会更加重视像英伟达和 AMD 这样的 GPU 巨头,英特尔采取相应措施也在意料之中。

所以,获得 5 亿美元的合同,对英特尔 700 多亿美元年营收的贡献几乎可以忽略不计。但从“极光”项目中获得的 GPU 商业资源和研发经验,对它重返阔别 20 多年的独立显卡市场帮助极大,更何况是击败了英伟达和 IBM 等竞争对手,颇有此消彼长,王者归来之势。

图 | 越来越多的超算选择英伟达GPU作为加速器

图 | 英特尔“极光”介绍视频(来源:Intel)

Xe 绘图架构或将改变英特尔的计算格局

如果成功,“极光”的运算性能可达每秒百亿亿次,即 EFLOPS(exaFLOPS)次浮点运算。E 级超算的名称也是由此而来,理论上其性能是目前最快 P 级超算的 7-10 倍以上。

据美国官方透露,“极光”的主要任务之一是增强国防实力,比如用于模拟核爆炸,在无需核爆炸试验的情况下研究核武器。它还会内置人工智能技术,是进行深度学习和数据分析任务的最强平台,可以用于研发新型材料、模拟气候变化、分析自然灾害、从事物理研究和发展新型能源等重要科研项目。

虽然“极光”项目早在数年前就已经公布,但随着详细信息公之于众,全球 E 级超算竞赛似乎正在加速,日本、美国、中国、欧盟等选手都已经悉数公布计划,甚至是具体架构和实施方案,第一台 E 级超算有望在 2020-2025 年之间问世。

作为极光的计算核心,英特尔将首度使用全新 Xe 绘图架构,虽然目前仅知该架构为英特尔 Gen11 的强化修改版,在加强了绘图功能与性能的同时,也补足了专业计算能力。

GPU 在过去几年,一直是作为挤进超算平台排名的最强武器,排名靠前的大多数都采用了 GPU 计算为核心基础,若英特尔得以在极光上大秀 GPU 计算的肌肉,那不只是做为美国超算平台的突破,也同时是英特尔对于扩大计算架构领域的一大成功。

Xe GPU 计算架构也同时代表了英特尔自身计算架构的迭代,由于 2018 年,英特尔正式终止了 Larrabee 的后续发展计画,这也代表未来 Knight 系列计算卡可能会以 Xe GPU 取代过去的 Larrabee 架构,并和 FPGA 共同成为计算卡的搭配设计,如此可兼顾在 AI 计算领域中的训练与推理,就好比英伟达在其 GPU 中使用了 CUDA 计算单元与 TensorCore 计算单元的搭配一样,可以更好的应对广泛的计算应用。

另一方面,英伟达早就将 GPU 应用在汽车自动驾驶系统中,而作为英特尔自动驾驶布局核心的 Mobileye,也将可能因此更动其自动驾驶系统的计算核心,让 GPU 在其系统中担任更重要的角色。Mobileye 此前宣布其自动驾驶平台将会开放第三方代码的执行能力,并在今年 CES 暗示更强大的自动驾驶核心已经在开发中,若能整合 Xe GPU,取代现有的定制向量加速计算架构,那么对于整体计算生态,或者是通过让开发者使用更熟悉的硬件架构来扩大未来英特尔自动驾驶平台的软件开发基础,也更能帮助英特尔扩大其市场空间,应对包含英伟达在内的竞争对手的挑战。

图:英特尔的六大支柱(来源:英特尔)

回到“极光”身上,英特尔希望通过极光的建设,作为验证自家六大支柱的练兵厂的意味浓厚,其计算性能的预期目标虽高,但反而是次要考量,毕竟,若能在此一役证明英特尔六大支柱的价值,那么就可以对全世界复制更多相同的模式,创造更多超越极光的兄弟姊妹,抗衡包含 AMD 和英伟达的产品和算力布局。

“顶点”超算助力美国重返顶点

虽然英特尔有自己的盘算,但美国极为重视极光计划,毕竟超算作为大国重器,是许多包含物理、化学、能源,甚至武器在内等多数基础科学发展的基础,若算力不足,那么就很难推动相关科技的持续领先地位。全球超算排名每年会以 TOP500 榜单形式公布两次,分别在 6 月和 11 月。

美国凭借着进入半导体产业早,相关技术积累深厚,2013 年之前几乎垄断超算冠军,不仅算力高超,就连超算的数量也占据绝对优势。不过近 10 年来,中国超算技术奋起直追,入围榜单的超算数量越来越多,还在 2013 年依靠“天河二号”拿下冠军宝座,直到 2016 年,才被另一台中国超算“神威·太湖之光”顶替,并保持两年之久。

两者连续为中国占据了 5 年 TOP500 榜首,直到 2018 年 6 月,美国“顶点”超算横空出世,以每秒 12.23 亿亿次(峰值每秒 20 亿亿次)的计算能力一举夺冠,性能超越“神威·太湖之光”60%,是之前美国最快超算泰坦(Titan)的 8 倍。

图 | IBM的“顶点”超算(来源:IBM)

“顶点”,由美国能源部下属橡树岭国家实验室开发,是第一台既支持传统计算也支持运行人工智能应用程序的超级计算机,目的在于解决目前机器学习与神经网络等 AI 应用的性能瓶颈。它使用了 4,608 个服务主机,搭载超过 9,000 个 IBM 的 22 核心 Power9 处理器和超过 27,000 个英伟达Tesla V100 GPU。

美国重返超算霸主地位,除了再次唤起美国人的自豪感之外,也有广泛的实际应用场景。比如从新飞机的设计到新材料的制造、从军方核武器的设计到最基础的科学研究,无论是从科学研究还是军事能力的角度出发,它都对美国继续保持全球超级大国的地位起到非常重要的作用。

“顶点”的超高起点让其他超算很难通过优化跟它比拼,况且工程师还在持续对其升级。在经过半年的优化后,2018 年 11 月,“顶点”的浮点运算速度从每秒 12.23 亿亿次增加到每秒 14.35 亿亿次,继续扩大领先优势。同时,半年前排行第三的美国“山脊(Sierra)”超算,也以微弱优势力压“神威·太湖之光”,晋级亚军。

图 | 全球超算前五名

因此,目前最新的超算前五名分别是美国“顶点(Summit)”,美国“山脊(Sierra)”,中国“神威·太湖之光”,中国“天河二号”和瑞士“代恩特峰(Piz Daint)”。

值得一提的是,虽然超算榜首易主,但中国超算整体水平正在持续上升。对比 2018 年 6 月和 11 月的 TOP500 榜单可以发现,中国超算数量从 206 台增加到 227 台,占总数 45% 以上,创下新高。美国超算上榜总数为 109 台,不及中国一半,创历史新低,但美国超算在算力上继续保持优势,排名前 10 的超算中有 5 台来自美国。

在排名前 10 的超算中,IBM 参与制造了其中的 3 台,技术优势明显。但整体来看,联想一共在全球制造了 140 台,是数量最多的超算制造商。榜单还显示,中国企业在全球超算制造商排名中包揽了前 3,除了第 1 名的联想,还有浪潮以 84 台名列第 2,中科曙光以 57 台名列第 3。华为 14 台,排名第 8。

图 | TOP500超算比例

欧、日、美早早布局E级超算

随着数据分析和 AI 技术的计算需求越来越高,现有的 P 级(petaFLOPS)每秒千万亿次计算能力终究会有“不够用”的情况出现,因此欧盟,日本和美国等都早早开始布局 E 级超算,试图达到每秒百亿亿次计算级别,全力争夺“超级计算机界的下一顶皇冠”。

早在 2011 年,欧盟就有提出过 E 级超算项目,但直到 2017 年才正式公布“欧洲高性能计算共同计划”,次年 9 月,成立“EuroHPC”部门负责该项目。欧盟将从参与的法国、德国、西班牙、意大利等 13 个国家中筹集 10 亿欧元,建造欧洲高性能计算基础设施,希望于 2023-2026 年完成,最终超越中美日等超算强国。

日本最早在 2013 年底首次推出了 E 级超算计划,斥资超过 10 亿美元,由日本理化学研究所的计算科学研究机构(AICS)负责研制,预计 2021-2022 年发布。

日本计划将 E 级超算命名为“后京(Post-Kyo)”,计划使用富士通自主研发的 ARMv8 SVE(可伸缩矢量扩展) 新款 Kyo 超算芯片,是日本现有超算“京(Kyo)”芯片的二代版本,理论性能可以大幅超越美国“顶点”,重新与中美竞争榜首。

图|由富士通研发的新一代 Kyo 超算平台誓言要让日本重回 Top 500 超算榜首

而美国也早在 2015 年就提出了“国家战略计算推进计划(NSCI)”,目的是确保其高性能计算领先地位,力求在 2025 年前制造出世界上最快的 E 级超算。

事实上,美国能源局在 2014-2015 年投资了三台十亿亿量级的超算,分别是“顶点”,“山脊”和“极光”,作为冲击超算冠军的种子选手。

但 2018 年的结果显示,“顶点”和“山脊”已经足够强大,而且英特尔的新 Xeon Phil 加速器无法按期完成,因此“极光”被重新评估,最终与 E 级超算项目 A21 合并。美国同时进行的 E 级超算项目还有“先锋(Frontier)”和“酋长岩(El Capitan)”等。

不仅如此,为了巩固自己的地位,美国还在 2015 年决定禁止英特尔向中国 4 家超算机构出售 Xeon Phi 处理器,从而限制中国超算的发展。当时,排名第一的“天河二号”超算使用了数万颗 Xeon 处理器。

然而这不仅没有影响中国超算技术向前迈进,反而加快了相关芯片自主研发的脚步。

禁售令发布一年后,“神威·太湖之光”登顶 2016 年 TOP500 榜单,搭载申威 26010 处理器,不使用英特尔芯片,也不使用逐渐流行的 GPU 计算架构,仅靠纯 CPU 计算架构组合,虽然能耗方面略显弱势,但性能仍然蝉联 4 次冠军,直到投资力度、架构、工艺和技术都更胜一筹的“顶点”问世。

图 | 神威·太湖之光

中国能否在E级超算反超

同样是 2016 年,中国科技部正式启动“十三五”E 级超算研发计划,决定“兵分三路”,用三台 E 级原型机实现 E 级超算的研制,预计在 2020 年投入使用。

中国希望打造一台拥有以下性能的超算:峰值运算性能可以达到每秒百亿亿次浮点运算的 E 级超算,远超其他国家的 LINPACK 测试值;至少 10PB 的系统记忆存储;一个能提供至少每秒 500GB 的点对点带宽、超算级延迟和可扩展性的互联互通;以及每瓦特能量至少每秒 300 亿次浮点运算的系统效率。

三台 E 级原型机分别是“曙光”、“神威”和“天河三号”,分别由中科曙光、江南计算技术研究所以及国防科技大学研发。目前,三台原型机都已经完成,全部使用了 512 节点的设计,并且配有液冷系统。

“曙光”原型机装备的是两颗 AMD 授权的海光 x86 处理器。这个设计的优势在于保留了目前正在研发的超算软件的兼容性。

该原型机使用了深度计算器(Deep Computing Unit)作为加速器,每个节点配有两个海光 DCU。测试时,理论峰值运算性能可达每秒 6 万亿次浮点运算,但要想达到 E 级超算目标,这个数字至少要翻一倍。

而且如果“曙光”想要提高 x86 处理器的性能,海光可能要提升其第一代“禅”(Zen)处理器的性能,或者从 AMD 获得“Zen 2”甚至“Zen 3”的授权。

“神威”原型机仍然使用了申威 26010 处理器,每个节点有两个处理器,每秒可进行 6 万亿次峰值浮点运算,拥有 512 个节点的计算机每秒可进行 3.13 千万亿次浮点运算。

在当前状态下,它可能需要提升接近三倍的性能才能达到 E 级超算能效。

与“神威·太湖之光”不同的是,这台原型机使用了一款提供每秒 200GB 点对点带宽的本土网络芯片,而非 Mellanox 无限带宽技术。这契合了中国计划将所有 E 级超算技术本土化的战略。在此基础上,它还使用了一个神威存储箱作为它的存储系统。

“天河三号”原型机是目前最为神秘的一个。它使用的是中国设计的高级精简指令集(ARM)芯片。这款芯片的公开信息很少,只是被笼统的描绘成一款能够平衡计算与内存的全新多核处理器,极有可能是来自飞腾公司(Phytium)的“小米”。

该原型机性能为每秒 3.14 千万亿次浮点运算,与“曙光”几乎一样,说明“天河”的 ARM 处理器性能也很强大。

“天河”的互联互通结构将会采用光电技术,提供每节点每秒 400GB 的带宽,储存在一个新的未知储存系统中。

三台原型机的陆续问世,证明了中国迈出了研发 E 级超算的重要一步,但仍然困难重重。这些每秒三千万亿次浮点运算的 E 级原型机更像是技术测试平台。它们很难在同一代中不借助前 E 级超算(pre-exascale)平台完成量的飞跃。

中国“高性能计算机及其核心软件”重大专项总体组组长钱德沛认为,能量效率是中国面临的最大挑战,其次则是应用性能、可编程性和耐久度。

传统半导体架构带来的热和运作能耗是难以解决的问题,这也导致超算的持续运作维持成本可能要高于建构成本,若运作成本持续攀高,恐怕会限制未来超算的发展空间。按照目前的浮点运算效率估算,中国每百亿亿级运算消耗能量约为 33 兆瓦。这相对于美国、日本与欧盟展望的 20 到 30 兆瓦还有一定差距。

中国原计划于 2020 年推出 E 级超算,目前来看,想要如期完成目标的时间紧迫,难度很大。不过,近年来中国 AI 风潮的兴起,以及包含寒武纪、神威架构等多种计算核心的发展带动之下,成功推动领先全球的超算架构发展,同时也代表算力核心的部分也逐渐摆脱美国供货商的限制,走向自有化。

结合其他国家的超算计划来看,中国的超算发展已经跟上了步伐,甚至走在了前沿。

随着中、美、日、欧纷纷加入超算竞争,我们或许将在 2020-2021 年见证 E 级超算正式诞生。当然,还有很多计算架构在发展壮大,比如量子计算和光子计算,它们的性能将会比传统计算强大数百倍以上,甚至从根本上颠覆超算的架构。

就像前文所说,在数据当道的今天,追求更高算力的价值远远不止国力和冠军这样的象征意义。

毫不夸张的说,算力已经成为支撑科研工作者探索世界的重要手段,有望为很多棘手问题提供更优解,比如应对全球环境污染、能源危机以及气候变化等关系全人类命运的重大难题,从而从根本上推动人类社会的发展。

这也是科技的真正价值所在。