算力霸主最“疯狂”GPU,正受中国新基建数据中心主力军青睐

千呼万唤始出来。在这个疫情冲击全球的特殊时间,我们终于看到了“AI 算力霸主”英伟达的首款安培架构 GPU——NVIDIA A100,也是全球最大的 7nm 处理器。

尽管新冠疫情让很多人无法感受英伟达 CEO 黄仁勋本人“ GPU 越买越省”沉浸式演讲的魅力,在 GTC 之前,他仍不失幽默地上传了一段预热视频。视频中,鉴于此前英伟达的显卡造型多被吐槽为煤气灶,所以黄仁勋干脆直接在厨房中从烤箱里端出来了“预热”好的产品。

图丨被网友调侃准备展示“刀法”的黄仁勋(来源:英伟达)

实际上,英伟达的 Ampere GPU 其实一直是该公司的最佳机密之一,因此也在过去一年引发诸多猜测。从黄仁勋的首次(厨房)线上直播带货来看,以 Ampere(电流之父安培)为名,英伟达的新一代 GPU 架构可谓火力全开。

(来源:英伟达)

7nm 工艺加持,全新的数据中心 GPU

A100 GPU 的核心是英伟达全新的面向 AI 的 Ampere GPU 架构。从 2008 年最初的仅面向计算处理单元使用的 Tesla 架构,到面向深度学习的 Volta 架构(英伟达此前最为先进的人工智能 GPU Tesla V100 基于该架构),再到这一次的 Ampere 架构,在 AI 计算成为主流之后,能效比的提升已经成为主导英伟达每一代架构更新的主题。

图丨A 100的几大核心“卖点”(来源:英伟达)

基于安培架构,A100 GPU 包含超过 540 亿个晶体管,使其成为世界上最大的 7 纳米处理器,并搭配 HBM2 显存,面积 826 平方毫米,60GB/s NV LINK,现已全面投入生产并交付全球客户。

与 AMD 于 2019 年转向 7nm 不同,英伟达在 GPU 工艺上其实并无太大必要,因为英伟达 12nm 工艺的产品已经显现了颇具市场竞争力的性能、能效优势,这次采用台积电 7nm 工艺,再加上 Ampere 架构本身的设计突破,英伟达任务自己实现了第八代 GPU迄今为止最大的性能飞跃——不但一统 AI 训练和推理,而且整体性能相较于前一代产品提高了 20 倍。

以自然语言处理领域的殿堂级算法 BERT 算法为例,A100 比 T100 在训练上提升了 6 倍,在推理上提升 7 倍表现。

A100 集成了英伟达的几项最新的计算技术:包括第三代的 Tensor Core,可更快更灵活地执行专门的矩阵数学运算,尤其适用于深度学习和某些特定的 HPC 任务;可将单个 A100 GPU 划分成为多达七个独立的 GPU,从而为不同任务提供不同程度的计算的 Multi-instance GPU 技术;以及能够将多个 A100 GPU 合并成一个巨大的 GPU 来执行更大规模的训练任务的第三代 NVIDIA NVLink 互联技术。

英伟达认为,这些新技术组合在一起,让 NVIDIA A100 成为各种苛刻计算负载的理想选择,包括科学仿真、对话式 AI、推荐系统、基因组学、高性能数据分析、地震建模和财务预测等应用场景。

据了解,美国、德国的多个实验室及超算中心已经开始使用 A100 作为超算解决方案。

(来源:英伟达)

而且 Ampere 架构也正被用于提升英伟达自动驾驶平台 DRIVE 的计算性能,赋力下一代 DRIVE Pegasus Robotaxi 自动驾驶平台,将 DRIVE 系统的性能提高了6倍。现在,该平台凭借两个 Orin SoC 和两块 NVIDIA Ampere GPU,可实现 2000 TOPS 的性能,因此能够处理全自动驾驶出租车运行所需的更高分辨率传感器输入和更先进的自动驾驶深度神经网络。Orin SoC系列将于明年开始提供样品,在2022年下半年投入生产并向汽车制造商供应,为下一代可编程软件定义NVIDIA DRIVE AGX系列奠定基础。

得益于 A 100 和Ampere 架构作为本次 GTC 的最大亮点得到宣布(仅次于黄仁勋家厨房曝光),今年的 GTC 终于有了明显的硬件“C 位”,但软件更新也不缺席。

软件更新上,这次发布会延续了近年来 GTC 越来越明显“软件硬件两手抓不分家”的风格(甚至去年的 GTC 有记者称没看到英伟达发硬件,让黄仁勋无奈中又有些气愤)。

英伟达发布了多个软件堆栈更新,包括了 50 多个新版本 CUDA 相关库,可用于加速图形、模拟和 Al;多模态对话式 AI 服务框架 NVIDIA Jarvis ;深度推荐应用框架 NVIDIA Merlin ;以及 NVIDIA HPC SDK , 其中包括能够帮助 HPC 开发者调试和优化 A100 代码的编译器、库和工具。

英伟达相信,这一系列软件更新,会帮助开发者们更加充分发挥 A100 GPU 性能,让 A100 更香。

“The More U Buy, The More U Save”.

“英伟达将是中国算力基建中重要部分”

眼下这场如火如荼的数据中心智能化革命,是促成英伟达在 A100 下如此大工夫的最大动力。

正如黄仁勋称:“云计算和 AI 的强大趋势正在推动数据中心设计的结构性转变,过去的纯 CPU 服务器正在被高效的加速计算基础架构所取代。A100 GPU 作为 一个端到端的机器学习加速器,其实现了从数据分析到训练再到推理 20 倍的 AI 性能飞跃。这是有史以来首次可以在一个平台上实现对横向扩展以及纵向扩展的负载的加速。NVIDIA A100 将在提高吞吐量的同时,降低数据中心的成本。”

图丨英伟达称 A 100 实现了 “ Greatest Generation Leap”,即迄今最大的性能飞跃(来源:英伟达)

在 GTC 媒体采访环节中,黄仁勋尤其强调了亚洲数据中心市场的重要性。

“目前,亚洲是世界上对数据中心需求最大的地区。PC 革命、企业运算都发源于美国,美国也曾受益于企业运算,美国赶上了所谓的时机。而云计算和移动计算发源于亚洲,中国的云计算和移动计算是非常先进的。例如中国有腾讯、阿里巴巴、美团、抖音等这些大型企业。

总之,亚洲有云计算、移动计算需求的企业都相对领先于其他地区的企业。我们公司的方向正好是数据中心计算,我们的目标是在数据中心处理所有的任务。

所以,亚洲是我们公司特别重视的地区,亚洲有我们重要的合作伙伴。我们希望能帮助中国的科技公司以及我们自身实现云计算的价值”,他说。

据介绍,现在,已经有众多全球领先的云服务供应商和系统厂商计划将最新的安培架构 A100 GPU 集成到其产品中,其中包括:阿里云、AWS、百度智能云、思科、Dell Technologies、富士通、Google Cloud、 新华三、HPE、浪潮、联想、Microsoft Azurex 和腾讯云等。

上述名单中,不少中国公司正是国内提出新基建中数据中心建设的主力军,国内也有多个 AI 芯片新创正在云端 AI 芯片上发力,但英伟达的市场地位恐一时难以撼动。

黄仁勋也由此提到,英伟达将是中国算力基建中重要的一部分,其优势正是通用性的计算加速平台(we are very important part in China computing infrastructure,one of the advantage we have is that we are open platform)。

对于时下颇受关注的疫情给公司造成影响问题,黄仁勋称:“新冠病毒是人类的灾难。我已经在家办公 45 天了。

众所周知,我们公司擅长的是加速计算,我们能解决一些常规计算机无法解决的问题。所以,现阶段正是需要我们发光发热、造福社会的时间。我们的产品正在加速治疗、疫苗等相关的科学研究,并协助创建了健康卫生的防疫环境。例如,疫苗研发应用、AI 相机检测体温等。

由于新冠疫情,我们在中国的业务也受到相应的影响。有积极影响也有消极影响。工业应用等业务受到打击,例如航空领域和能源领域的业务,这些都是很小的一部分。由于人们需要在家隔离和远程工作,游戏、云数据中心、笔记本电脑等业务相对稳定”。