“史上最大芯片”正式装机交付，将被用于研究癌症疗法和黑洞碰撞

今年 8 月，集成 1.2 万亿个晶体管的“史上最大芯片”The Cerebras Wafer Scale Engine（以下简称 WSE）诞生，在 11 月 19 日召开的 Supercomputing 2019 大会上，该芯片制造公司 Cerebras Systems 推出了搭载该芯片的计算机系统————Cerebras CS-1，这也将是世界上最强大的 AI 计算系统。美国两家国家实验室是该公司的客户，其中，阿贡国家实验室已成功部署并宣布，将用这套系统来发现癌症疗法和理解黑洞碰撞。

图 | Cerebras CS-1（来源：Cerebras Systems）

CS-1 搭载的并不是一个芯片，而是一整个晶圆。通常，硅芯片是从 8、10 或 12 英寸等不同规格的晶圆上单独切下来的。而 Cerebras 把晶圆切割成一个很大的长方形，每个芯片都相互连接，可以使每个晶体管都能像整体一样高速运转。一个典型处理器可能在一个芯片上有 100 亿个晶体管，而 CS-1 搭载的整个晶片上所有核的晶体管总数超过 1.2 万亿个。

在 AI 计算中，芯片尺寸至关重要，但是高级处理器必须要有专用的硬件和软件系统相配合才能实现理想的性能。Cerebras 公司 CEO Andrew Feldman 在接受媒体采访时说：“你无法将法拉利发动机放入大众汽车中来获得法拉利性能。如果你想获得 1,000 倍的性能提升，你要做的就是消除瓶颈。”CS-1 系统设计和 Cerebras 软件平台相结合，可以充分用到从 WSE 上的 40 多万个计算内核和 18 GB 高性能片上存储器中提取的每一点的处理能力。

与 GPU 集群需要消耗数十个机架并且需要专有的 InfiniBand 进行集群不同，CS-1 不需要大量修改现有模型，并且用户只需将基于标准的 100Gb 以太网链路插入交换机就可以启动培训模型。

CS-1 有 15 个机架，大概是 26 英寸高（66.04 厘米）。Andrew Feldman 表示，CS-1 是“最快的 AI 计算机”。CS-1 计算机的机器学习能力相当于数百架基于 GPU 的计算机能力，这些计算会消耗数百千瓦。但 CS-1 仅消耗 17 千瓦，占标准机架能耗的三分之一。他把 CS-1 和谷歌的 TPU 计算集群相比，强调谷歌的 TPU2 机器学习集群需要 10 个机架和超过 100 千瓦的功耗，才能提供一个 CS-1 机箱三分之一的性能。

Feldman 说：“我们是由 40 万个专用 AI 处理器组成的 AI 机器。”CS-1 由 40 万核、1 万亿晶体管大小的处理器芯片驱动，可以将原本需要至少几周的大型神经网络训练任务缩短到几分钟甚至几秒钟。但是，Cerebras 并没有提供用标准 AI 基准（如新的 MLPerf 标准）衡量性能的数据。相反，它通过让潜在客户在 Cerebras 的机器上训练他们自己的神经网络模型来吸引潜在客户。

另外，Cerebras 还公布了一些系统软件的细节，该软件允许用户使用 Pytorch 和 Tensorflow 之类的 ML 标准框架来编写他们的机器学习模型。强大的图形编译器可自动将这些模型转换为 CS-1 的优化可执行文件，而丰富的工具集可实现直观的模型调试和性能分析。

图 | Cerebras 软件系统允许用户使用 Pytorch 和 Tensorflow 之类的 ML 标准框架来编写他们的机器学习模型（来源：Cerebras Systems）

这是如何实现的呢？通过解决一个优化问题，确保所有层以大致相同的速度完成它们的任务处理，且与相邻层是连续的。这样信息就可以实现在网络中畅通无阻。该软件可以在多台计算机上执行这个优化问题，如果把 32 个 CS-1 连接在一起，那么这一组计算机所构成的大型计算机的性能可以提高约 32 倍。

Feldman 说：“GPU 集群无法实现相同的效果，你得到的不是一个大型计算机的算力，仍然是一堆小机器所能实现的算力。”他认为 CS-1 和 GPU 集群形成了鲜明的对比。

CS-1 的第一个应用是预测癌症药物反应，这是美国能源部和美国国家癌症研究所合作的一个项目。能源部负责人工智能与技术的副部长 Dimitri Kusnezov 在一份声明中说：“在能源部，我们相信公私合作是加速美国人工智能研究的重要组成部分。”“我们期待与 Cerebras 建立长期而富有成效的合作关系，这将有助于定义下一代人工智能技术，并改变能源部的运作、业务和使命。”或许这也是 Feldman 能筹集到数亿美元并雇用大量员工的原因。

图 | 阿贡实验室（Argonne National Laboratory）

阿贡实验室与 Cerebras 的合作已经有两年了。其计算总监 Rick Stevens 在新闻发布会上表示：“通过部署 CS-1，我们大大缩短了神经网络的训练时间，使我们的研究人员能够更高效地开展深度学习研究，在癌症、创伤性脑损伤以及当今和未来对社会有重要意义的其他领域取得重大进展。”

阿贡实验室是全球最大的超级计算机站点之一，而 CS-1 可以使这个站点比现有的 AI 加速器得到 100 到 1000 倍的提升，有望在 2021 年实现 Aurora 百万兆级超算的能力。一台百万兆级的计算机一瞬间进行的计算量，相当于地球上的所有人每天每秒都不停地计算四年。

除了用在研究抗癌药物之外，该系统还将被用来帮助理解黑洞碰撞行为及其引力波。此前做过类似研究的 Theta 超级计算机，在研究黑洞碰撞问题时需要调动超算所配置的 4392 个节点中的 1024 个节点，每个节点包含了一个 64 核处理器和 16 GB 的高带宽封装内存（MCDRAM），192 GB 的 DDR4 RAM 和 128 GB 的 SSD。

Cerebras 的另一个客户劳伦斯·利弗莫尔国家实验室也来头不小，拥有世界排名第三的 Sequoia 超级计算机。CS-1 也有望进一步增强其模拟计算能力。