近年来,谈到 AI 驱动的算力革命,一个不得不提的趋势就是异构计算。
异构计算(Heterogeneous Computing),指的是通过调用性能、结构各异的计算单元(CPU、GPU、各类专用芯片等等)以满足不同的计算需求,实现计算最优化。
这一概念诞生于上个世纪 90 年代,但直到近几年随着人工智能技术落地不断产生新的计算需求,需要更多地在性能、成本和功耗上进行平衡,这项技术的产业价值才真正爆发,也给芯片市场尤其是高端芯片市场创造了更多的机会:应用越来越多样化,促使着通过多种芯片进行异构计算成为行业主流,业内普遍看法也认为,这种趋势会继续加速。
现在,有一家厂商希望让芯片级异构计算技术的整合协调程度更上一个台阶:英特尔正在押注“超异构计算”。
“传统异构计算并不能满足现在计算的要求。而超异构计算,已逐渐成为业界思考的一个趋势”,在近日的一次采访中,英特尔中国研究院院长宋继强对 DeepTech 给出了英特尔对当下的算力演进方向的新判断。
接下来的下半年到明年的时间,他们将通过其超异构计算产品、面向 PC 的“ LAKEFIELD ”验证上述判断,如果得到证明,英特尔将让这个技术扩展到其更多的产品线中。
图|LakeField 也是 10 纳米产品之一(来源:英特尔)
两大主流传统异构计算式微
据了解,目前的的异构计算产品主要有两种形态——分体式板卡和一体化 SoC。前者是直接把不同的芯片在不同的板级连接起来,比如说通过 PCI-E,把 CPU 板和专门的做 AI 加速的板连在一起。后者可以将各种计算能力的加速内核放置到一个芯片中,这一整个芯片相当于一个处理节点,例如,14nm、22nm做出来的单芯片集成很多种不同的计算模块(CPU、GPU、通信模块、视频处理的加速器)。
当下,产业应用在 AI 计算上主要有以下几个需求:多种计算加速、time to market 的考量、可扩展性、开发难度、数据带宽延迟、价格、训练速度、推导实时性、能效比、体积。在上述需求中,两种异构计算形态各有优劣。分体式板卡在技术上能够更快实现,但是体积和功耗都比较大,而且板与板传输不如芯片内部设计带宽高。一体化 SoC 在上述的大部分需求上相较有优势,但在交付上需要消耗较长的时间。
图|产业对 AI 计算的需求(来源:DeepTech)
英特尔认为,产业需求的多样化,也愈发暴露上述两种主要异构计算产品形态的短板所在,突破点在于超异构。
目前,多功能、多架构的独立芯片可以根据计算负载分成以下4种:标量计算,CPU 就是典型的标量处理器,即进行“A+B,B+D”这样的运算;矢量计算,可以实现八个数一起算,常用于图形计算;矩阵计算,即 4×4 或者 8×8 的块同时进行计算,已经广泛用在 AI 卷积神经网络当中;空间计算,即运算的时候有灵活的空间处理架构,这个方面的代表是 FPGA。
而超异构计算,就是要把这几种计算整合在一起达到“计算最优化”。英特尔认为,集合传统异构计算的优势,避开传统异构计算的短板,即“超异构计算”的“超”所在。
但“计算最优化”,可能还不足以打动客户为这个听起来十分复杂的新技术买单。对此,宋继强表示,英特尔决定研究超异构计算,初衷亦是为了帮助客户降低成本。
“因为现在的一大困境是,技术越往前发展,不断往 10nm、7nm 演进,做出一款单一的、一体的 SoC 成本就会越来越高,如何对这些先进的计算单元进行整合又将成为芯片业共同的问题”,他说。
图|英特尔研究院院长宋继强在接受媒体采访(来源:DeepTech)
超异构计算的 3 大技术关键:加速、封装、统一软件
具体来说,超异构计算整合先进计算单元有以下几个关键点:一是与板级设计一样,用多功能、多架构的芯片处理和加速不同的运算负载;二是把计算单元封装在一个芯片里,但这与板级层面的连接不同,是在封装层设计先进的技术,把带宽放大,同时功耗降低,体积减小,是一种封装集成技术;三是使用这种复杂的超异构模式,不能给软件开发人员增加难度,因此超异构计算还需要统一的异构计算软件。
尤其是在封装技术上,英特尔设想,其业界首创的 3D 逻辑芯片封装技术 Foveros 将在超异构计算中大显身手,能够支撑超异构计算的第二个关键点。
Foveros 在 2019 年亮相 CES。当时,英特尔公司高级副总裁兼客户端计算事业部总经理 Gregory Bryant 介绍,Foveros 可以可支持混合 CPU 架构设计,将确保先前采用分离设计的不同 IP 整合到一起,同时保持较小的 SoC 尺寸,仅有 12×12mm,功耗也非常低。这也使得它可以搭载到更小尺寸主板的单一产品中,使得 OEM 能够更加灵活地采用轻薄的外形设计,可以为行业、为合作伙伴生产各种不同规格尺寸产品提供全方位的性能。官方称可支持小于 11 英寸的产品。
英特尔中国研究院院长宋继强则对 DeepTech 进一步地解释了 Foveros 全 3D 堆叠的特性,尤其是与 2.5D 堆叠的对比:“假设我们把 10nm 的 CPU 或者 GPU、14nm 的 Modem,与 22nm 的互连芯片整合在一起,在超异构方式下可以通过 2.5D 封装,或者 3D 封装整合在一起。2.5D 是芯片平铺在同一层,但是通过基底层嵌入芯片,即嵌入式的多芯片连接桥,可以实现连接。可以看出,2.5D 已经有了平面上的堆叠,但还不是全 3D 堆叠。Foveros 全 3D 堆叠,真正可以做到把逻辑芯片和逻辑芯片堆在一层堆高,以及加入 memory,这样可以在体积做到最小,而且芯片之间的互联互通的带宽做到最高”。
据了解,英特尔面向PC的最新低功耗处理器 LAKEFIELD 就已经使用了 Foveros 3D堆叠技术,采用混合 CPU 的架构,有处理不同工作负载能力。LAKEFIELD 基于英特尔最新的 10nm 工艺制造,集成了一个大核心 CPU 和四个小核心 CPU,其中大核心是最新的 Sunny Cove 架构,拥有 0.5MB LLC 缓存,四个小核心的架构并未公布,共享 1.5MB 二级缓存,同时所有核心共享 4MB 三级缓存。
打造这样的已经直接整合了内存的 SoC,一个疑问是,英特尔未来会更倾向于以这种打包整合的方式出售芯片、即产品越来越封闭的打法吗?
对于这一疑问,宋继强给出的答案是:“恰恰相反,超异构计算反而会让英特尔更加开放”。
他解释道,由于超异构计算可以整合各种各样的芯片,这样不止英特尔自身的产品,客户的芯片也可以放进来。此前英特尔就曾用 2.5D 技术封装过其它公司的芯片,例如将 AMD 的芯片跟英特尔的 CPU 封装在一起。
不过,目前英特尔的 3D 封装基本还是封装自己的芯片。但宋继强表示,如果有一些客户确实有自己比较好的芯片,是可以放在这种平台上进行 3D 封装的。
“这个可能性是存在的。因此,英特尔在超异构计算上不会变得更加封闭”,他说。
宋继强也表示,更加开放,意味着英特尔将进军之前没有涉足过的领域,比如物联网节点、一些轻量级的计算、数据的早期分析过滤等等,“因为第三方的产品可以封装进去,我们也就可以更接近一些更边缘、更碎片化的市场”。
被忽视的 AI×5G 聚合效应
在与 DeepTech 谈及押注超异构计算的对话中,宋继强重点强调的一个更宏观的判断趋势是: AI 和 5G 在 2019 和 2020 年都达到了可用性(5G 在 2019 年试商用,在 2020 年正式商用),“ AI×5G ”的聚变效应以后,计算就将进入超异构时代。
(来源:DeepTech)
目前这种 AI×5G 的聚变效应已经在智能交通上有所体现:AI 算法可以对视频数据进行实时分析,但这种分析不能全在云端上,还需要利用 5G 的能力在前端、边缘端做一些分析筛选的配合;而数据到了云端之后,需要利用云端的全场景模拟,例如数字孪生,去实现与真实场景的同步性,而“同步”,依靠的正是 5G,才能保持同步。
未来城市级的规划或者是预警,对上述流程还会提出更高的要求,AI×5G 的聚变可能比我们想象的还要猛烈,将激发对数据传输、存储、计算、分析等方面的需求增长,而超异构计算,还仅仅是这些需求反应中的一个被触发的技术点而已,这种芯片技术发展的背后,是整体的计算机技术趋势走向更加深度的整合协同。
宋继强认为,过去业界谈到 AI 和 5G 的结合,仅仅看到两大技术叠加后线性的市场推动作用,但在越来越频繁地与客户接触之后,英特尔发现,AI 和 5G 的叠加带来的是一种乘法效应,例如利用 AI 为 5G 所带来的数据去更好地做下一层级的分析,在部署的时候,就应该充分利用这两个变革性技术乘法效应。