告别英伟达，亚马逊计划将Alexa语音处理任务转移至自研芯片

芯片自研的趋势正愈演愈烈。

云服务巨头亚马逊最近发表声明称，计划将 Alexa 语音助手的部分计算任务转移到自主设计的定制设计芯片 Inferentia 上，以便加速任务的执行速度，同时降低成本。

这意味着亚马逊将减少对英伟达芯片的依赖。

当用户使用亚马逊 Echo 智能音箱呼叫 Alexa 语音助手时，语音数据将发送到数据中心的服务器上，然后再由 AI 系统分析和处理，以文本的形式生成反馈信息，最后再转换成 Alex 的语音，转达给用户。

在此之前，整套流程都是由英伟达芯片驱动的，但从今往后，亚马逊将逐步起用自家的 Inferentia 计算芯片。该芯片发布于 2018 年，专门为执行机器学习任务而定制设计，可以加速文本转语音、识别图像等任务的执行速度。

亚马逊官方介绍，AWS 云服务是使深度学习普及到普通开发者，并以低成本提供按需付费服务的顶尖基础架构。作为加速机器学习任务的定制芯片，Inferentia 是实现这一愿景的长期战略的一部分。

Inferentia 旨在在云端提供高性能推理，降低推理的总成本，配套的软件开发套件（SDK）可以方便开发人员将机器学习集成到其业务中。它的特点主要是高性能，低延迟和高灵活性。

每个 Inferentia 芯片的运算性能最高可达 128 TOPS，而现有的每个 EC2 Inf1 服务最多支持 16 个 Inferentia 芯片。芯片经过了特殊优化，以最大程度地提高小样本尺寸的吞吐量，这对于语音生成和搜索等对延迟要求很高的任务特别有用。

另一方面，Inferentia 拥有大量的片上内存，可用于缓存大型模型，而不是存储在芯片外。由于它的处理核心（又被称作神经核心）可以高速访问存储片上内存中的模型且不受片外存储器带宽限制，因此可以有效减少延迟对推理的重大影响。

亚马逊表示，将 Alexa 相关任务转移到 Inferentia 芯片，可以将延迟降低 25％，成本降低 30％。

亚马逊还强调，开发人员可以使用 TensorFlow，PyTorch 和 MXNet 等流行框架来训练模型，并使用 AWS Neuron SDK 轻松地将它们部署到云服务器上。Inferentia 支持 FP16，BF16 和 INT8 数据类型，还可以采用 32 位训练模型并使用 BFloat16 以 16 位模型的速度自动运行。

近年来，亚马逊，微软和谷歌等公司正在大力发展云计算服务，因此需要大量的数据中心和服务器西元，由此成为了最大的计算芯片客户。这种趋势推动了英伟达，AMD 和英特尔等公司加大了对计算芯片的研发力度，而且相关营收也不断增长。

但最近的趋势显示，越来越多的技术公司正在尝试摆脱对传统芯片供应商的依赖，转向自主设计芯片的道路。比如苹果最近推出了搭载自研中央处理器 M1 芯片的 Mac 电脑。

目前，亚马逊的云端面部识别服务 Rekognition 也已经已开始使用 Inferentia 芯片，但仍有大部分服务依赖于英伟达芯片。