物联网迈向低碳化,MIT开发出一次训练、多平台部署的AI系统

万物互联时代,AI 计算不能仅依赖于云端服务器。例如自动驾驶车辆或无人机执行的物体识别任务,有着较高的实时性需求,因此需要在这些形态各异的终端设备本地中部署深度神经网络(DNN)。但这又会凸显能耗问题,因为终端设备的可用资源往往是受限的。

除了 AI 硬件设计者们在努力开发低功耗的专用芯片以外,还有一组研究人员正想方设法让 DNN 本身更加“低碳化”:将 DNN 模型高效地部署到各种硬件平台上,涉及根据具体硬件算力进行重新设计(或裁剪)以及重头训练,由此带来的成本会随着硬件平台的数量而线性增长,造成大量的能源消耗与碳排放。

一次训练就能适应多平台部署的 Once for All(OFA)方案,成为一种解决思路。

最近,来自麻省理工学院的韩松团队就发表了这个方向的一项新成果:团队开发了一个适用于多种不同硬件平台的 AutoML 系统,这种系统碳足迹更小,硬件上的计算效率更高。这将是一项颇具应用前景的研究。

该方法训练了一个大型的母网络,其中包含许多不同大小的子网络,就能实现子网无需再训练即可适应不同的硬件平台,从而大幅降低了为新平台 (可能包括数十亿个物联网设备) 训练每个专门的神经网络所需的成本。

团队估计,与当今最先进的神经网络架构搜索方法(NAS)相比,利用该系统训练一个计算机视觉模型只需要大约原来 1/ 1300 的碳排放(图 1),同时在不损失准确率的前提下,将推理时间缩短了 1.5-2.6 倍(图 2)。

图 1:OFA 和传统 NAS 方法的训练代价比较(以碳排放量计)

图 2:OFA 和 EfficientNet, MobileNet-v3 的推理性能比较

“我们的目标是更小、更环保的神经网络。目前搜索高效的神经网络架构会产生巨大的碳排放,新方法减少了几个数量级的碳排放”,韩松说。

团队基于 AutoML 建立了这个系统,从而可以自动搜索巨大的神经网络结构空间,以寻找适合于给定硬件平台的网络结构。但是这仍然存在效率问题:不同硬件平台必须单独选择模型,然后从头开始对选择的模型进行训练。

韩松介绍道:“我们如何才能为从 1 美元的物联网设备,到上百美元的智能手机,到上千美元的 GPU 和云 AI 都有效地适配不同的网络?考虑到物联网设备的多样性,神经架构搜索的计算成本将会激增。”

而团队开发的 AutoML 系统之所以能避开这些成本,关键在于只训练作为 OFA 的 “母” 网络。

(来源:Han Lab)

这个 “母” 网络嵌套了非常多的子网,与所有的子网络共享所有的学习权值,这意味着子网络基本上是经过预先训练的。因此,每个子网可以在推理时独立运行而无需再训练。

针对特定的平台,系统会使用 OFA 作为搜索空间,根据与平台的能力和速度限制相吻合的准确性和延迟权衡,找到最佳的子网。例如,对于物联网设备,系统会找到一个较小的子网。对于智能手机,它将选择较大的子网,但根据电池寿命和计算资源的不同,子网的结构也将不同。OFA 将模型训练和架构搜索解耦,并将一次性训练成本分摊到多个推理硬件平台和资源约束上,在需要多平台部署的场景下显现优势。

这依赖于 “渐进收缩” 算法,它能有效地训练 OFA 网络以同时支持所有的子网。“渐进收缩”算法首先用最大尺寸训练整个网络,然后逐步缩小网络的大小去覆盖更小的子网。小的子网络在大的子网络的帮助下一起提升。最后,系统支持不同大小的所有子网络,并允许基于平台的能力和速度限制进行快速定制化。它支持多种硬件设备,在添加新设备时,训练成本为零。

“一个通用的 OFA 网络,支持在大量不同的结构设置下通过截取 OFA 网络的不同部分来进行高效推理”,HAN Lab 博士生蔡涵说。根据论文,一个 OFA 网络可包含超过 10 的 19 次方个结构设置,几乎覆盖了所有需要的平台。

那么成本以外,准确性如何?

结果显示,这种方法在移动设备上提供了目前最优的 ImageNet 精度(图 3)。

蔡涵表示:“从计算资源的角度,NAS 方法的总计算资源是随着部署场景数量的增加而线性增长的。当有多个部署场景的时候,OFA 会比 NAS 方法高效得多。具体上,在 40 个部署场景的情况下,OFA 的总计算资源消耗是 ProxylessNAS 的 1/16,MnasNet 的 1/1300”。

图 3:OFA 网络只需 595M MACs 即可实现 80.0% ImageNet top-1 准确率。

从准确率的角度,OFA 中的子网在经过微调后可以达到比单独从头训练更好的准确率。在 ImageNet 上,OFA 在大量的硬件平台和效率约束下都达到了明显好于 EfficientNet 和 MobileNetV3 的性能(图 2)。在 ImageNet 的 Mobile Vision 条件下(< 600M MACs),OFA 达到了最新的 80.0% SOTA 准确率。OFA 网络在第三届和第四届低功耗计算机视觉比赛(Low-Power Computer Vision Challenge)中都取得了第一。

现在,该研究论文已被 ICLR 2020 大会收录,并在 github 上开源了训练代码以及 50 个用于各种硬件平台的 ImageNet 预训练模型,包括了在 600M MACs 约束下达到 80.0%ImageNet 准确率的模型、预训练的 OFA 网络。

接下来,团队将继续拓展 OFA 在不同应用下的效率提升,让 AI 轻量化,既能运行在云端平台也能运行在边缘设备上。