MIT新突破：AI视觉算法已可在手机上运行，优于现有方法三倍

近日，MIT-IBM 沃森人工智能实验室的研究人员在计算机视觉识别算法相关研究中取得突破，他们使用的训练视频识别模型的新技术，不仅比目前最先进的方法快三倍，还成功缩小了最先进的计算机视觉模型，这就意味着，人们已经可以在处理能力非常有限的手机或其他设备上运行视频识别模型。

深度学习(deeplearning)是机器学习的一个分支，它帮助电脑在某些定义明确的视觉任务上超越人类。而视觉识别是深度学习的最广泛应用之一。计算机视觉算法目前可以分析医学图像、赋能自动驾驶汽车和人脸识别。但随着这项技术扩展到识别视频和真实世界的事物时，训练模型就变得越来越大，计算量也越来越大。

据估计，训练一个视频识别模型比训练一个图像分类模型需要多 50 倍的数据和 8 倍的处理能力。随着对训练深度学习模型处理能力的需求呈指数级增长，以及人们对人工智能的巨大碳排放的担忧与日俱增，这已经成为了重要的问题。另外，在低功耗移动设备上运行大型视频识别模型仍然是一个挑战，许多人工智能应用程序正朝着这个方向发展。

麻省理工学院电子工程与计算机科学系(EECS)助理教授韩松所带领的团队，正通过设计更高效的深度学习模型来解决这个问题。

（来源：麻省理工科技评论）

他们在一篇被 ICCV2019 接收的论文中概述了一种缩小视频识别模型的方法，可加快智能手机和其他移动设备上的视觉识别模型训练，并提高运行时的性能，成功将最先进模型中的 1.5 亿个参数减少到 2500 万个，模型缩小到原来的六分之一。

基础的图像和视频识别模型是神经网络，它大致模拟了大脑处理信息的方式。无论是数码照片还是视频图像序列，神经网络都会在像素中寻找模式，并为它们看到的东西构建一个抽象的表示。通过足够多的例子，神经网络“学习”识别人、物体以及它们之间的关系。通常，视频识别算法会将视频分割成图像帧，并在每个帧上运行识别算法。然后，它通过观察对象在随后每帧中的变化，将视频中显示的动作拼接在一起。该方法要求算法“记住”它在每一帧中看到的内容，以及它看到这些内容的顺序。这很低效，而且没有必要。

在新的方法中，算法提取每一帧对象的基本草图，并将它们叠加起来，算法可以通过观察草图中物体在空间中的移动来获得时间流逝的印记，而不用记住什么时候发生了什么。该模型在识别某些视频数据集中的行为方面，表现优于其他模型。

研究人员发现，这种训练视频识别模型新方法的速度是现有方法的三倍。在最近的一次演示中，它还能通过耗电很小的一台小型电脑和一台照相机来快速识别手势。

图丨研究人员演示手势识别（来源：YouTube）

通常情况下，在只有一个图形处理器的机器上训练这样一个功能强大的模型，需要两天左右的时间。但是研究人员设法借用了美国能源部最高级超级计算机，该计算机目前是地球上运行速度最快的。有了超级计算机额外的能力，研究人员表示，有 1536 个图形处理器，这个模型可以在 14 分钟内完成训练，接近理论极限。他们说，这比最先进的 3D 视觉识别模型快三倍。

韩松表示：“我们的目标是让所有使用低功耗设备的人都能使用人工智能，要做到这一点，我们需要设计出高效的人工智能模型，这种模型能耗更低，能够在可以运行大量人工智能应用的边缘设备上顺畅运行。”

这项新技术可以帮助推进计算机视觉的现有商业应用，减少其计算成本。例如，它可以通过加快对视觉信息的反应速度，使自动驾驶汽车更安全。该技术还可以解锁以前无法实现的新应用，例如通过智能手机来帮助诊断患者或分析医学图像。

另外，摄像头和视频编辑软件成本的下降，以及新型视频流媒体平台的兴起，让互联网上充斥着大量新内容。如今，每小时就有 3 万个小时的新视频被上传到 YouTube。研究人员说，更有效地对内容进行分类的工具将帮助观众和广告客户更快地定位视频。这类工具还将帮助医院和养老院等机构在本地(而非云端)运行人工智能应用程序，以保护敏感数据的隐私和安全。

并且，随着越来越多的 AI 研究被转化为应用程序，人们对微型 AI 模型的需求将会增加。这一研究成果是这种日益增长的趋势的一部分，它会将最新 AI 模型缩小到更易于管理的大小。

IBM 研究部主任 Dario Gil 最近也在 MIT-IBM 沃森人工智能实验室主办的人工智能研究周上致开题词时，强调了这项工作。他说：“大型人工智能培训工作的计算需求每 3.5 个月就翻一番，我们能否继续挑战这项技术的极限，将取决于将超级高效的算法与强大的机器相匹配的策略。”