英伟达推出最快的GPU产品,语言推理速度较上代快3.6倍

英伟达周四在日本 GTC 大会上推出了采用图灵架构的新款 GPU Tesla T4。

目前,几乎所有主流的云计算服务提供商都能提供 P4 GPU 。而作为 P4 的升级版,此次推出的 Tesla T4 将用于数据中心内的机器学习和推理。( T代表图灵构架,P 代表帕斯卡构架)

英伟达同时宣布,谷歌云将成为首家提供 T4 GPU 的平台。

从参数上看,Tesla T4 芯片的表现明显优于基于帕斯卡构架的 P4 芯片。T4 芯片拥有320个图灵 Tensor 核心和2560个 CUDA 核心。它的4位整数运算( INT4 )峰值性能可达260万亿次运算/秒( TOPS ),浮点运算( FP16 )峰值性能可达65万亿次运算/秒。

同时,在速度大幅提升的情况下,功率仅停留在75瓦。对于语言推理应用来说,使用 T4 芯片比使用 CPU 快36倍,比使用 P4 快3.6倍。

图 | 各应用表现对比(来源:英伟达)

图 | 各应用表现对比(来源:英伟达)

最重要的是,英伟达 Tesla T4 芯片是专门为了人工智能推理设计的。“ Tesla T4之所以能如此高效地进行推理任务,图灵Tensor核心功不可没,”英伟达 Tesla 数据中心业务副总裁兼总经理 Ian Buck 表示。

对于 Tensor 核心,英伟达 CEO 黄仁勋则表示它不仅可以进行游戏、渲染和人工智能任务,还可以进行计算机推理。

除了新芯片之外,英伟达还推出了用于优化深度学习模型的 TensorRT 软件,包括 TensorRT 推理服务器。TensorRT 是一个高度集成化的数据中心推理微服务,可以无缝插入现有的 Kubernetes 设施中。