微软最新研究：让“无人机”掌握推理能力，看图像做出正确动作

无论是在拥挤的人行道上行走，还是在社区足球联赛中射门进球，人类都会下意识地利用感知—动作循环（perception-action loop）做几乎所有的事情。感知—动作循环可以使我们在一个连续的实时循环中使用感官输入做出正确的动作，其也是 “自治系统” 的核心。

但当前一代的机器人等 “自治系统” 在直接根据视觉数据做出正确决策方面仍远远不及人类，其依然受到难以收集大量真实世界数据的限制。此外，虽然我们能轻易生成大量模拟数据，但这类数据在现实生活的各种场景中，通常不能催生安全的行为。

如何让机器人具有如人类一般的 “自治” 能力？一项来自微软研究人员的研究，让我们看到了巨大的可能性。

研究人员向我们描述了这样一种机器学习系统：它可以帮助机器人直接从相机图像中推理出正确的动作。以无人机为例，无人机可以通过模拟学习完成特定路线的导航。

（来源：微软）

通过模拟训练，机器人可以学会独立观察现实世界中的环境和条件（包括看不见的情况），然后作出正确决策，这使得机器人非常适合用于搜索和救援任务。研究人员认为，在不久的将来，这种机器学习系统可以帮助机器人更快地识别出需要帮助的人。

受人类大脑的启发，该系统将视觉信息直接映射到正确的控制动作上，也就是说，将视频帧的高维序列转换为代表真实世界状态的低维形态。根据研究人员的说法，这种方法使模型更容易解释和调试。

图 | 系统框架通过模拟学习使用多个数据模态的低维状态表征（来源：微软）

研究人员在微软官网上的一篇博客文章中写道：“我们希望可以借助这个系统使得当前技术更加接近人类应对环境提示、适应困难条件和自主操作的能力。我们有兴趣去探索要建立一个达到人类水平的自主系统需要做些什么。”

无人机实验

在机器学习系统框架内，研究人员将感知组件（即理解所看到的东西）与控制策略（根据看到的东西决定做什么）分开。“通过将 ‘感知—行动循环’ 分为两个模块，并将多种数据模式纳入感知训练阶段，我们可以避免网络过度拟合传入数据的非相关特征。比如，尽管用于模拟和物理实验中的门的大小相同，但它们的宽度、颜色，甚至内在的相机参数却不一样。” 一位研究人员说。

该团队将机器学习框架应用在一个带有前置摄像头的小型四轴飞行器上，在只使用来自相机的图像的情况下，试图通过为无人机传授一种 AI 策略，从而使其完成特定路线的导航。

研究人员使用一个名为 AirSim 的高保真模拟器在模拟环境下训练 AI，然后将其部署到现实世界的无人机上。其中，一个关键挑战是模型必须对模拟和现实世界之间的差异（如光照、纹理）具有鲁棒性（指控制系统在一定结构 / 大小的参数摄动下维持其它某些性能的特性）。为此，研究人员使用了一个名为跨模态变量自动编码器（CM-VAE）的框架，来生成紧密弥合模拟与现实差距的表征，从而避免对无关数据的过度拟合。

在无人机实验中，一种数据模态考虑了原始无标签传感器输入（FPV 图像），而另一种数据模态描述了与当前任务直接相关的状态信息，后者对应于无人机坐标框架中定义的下一个门的相对姿势。研究人员通过扩展 CM-VAE 框架，得到了一种低维的潜在环境表征。该框架为每个数据模态使用一个编码器 - 解码器对（encoder-decoder pair），同时压缩与单个潜在空间之间的所有输入和输出（图 b）。该系统将有标记和无标记的数据模式自然地纳入潜在变量的训练过程，然后使用模仿学习训练一种深度控制策略，将潜在变量映射到无人机的速度命令中（图 a）。

图 | a. 控制系统架构。来自无人机的视频的输入图像被编码到一种潜在的环境表征中。一个控制策略作用于低维嵌入，以输出所需的机器人控制命令。b. 跨模态 VAE 架构。每个数据样本被编码成单独的潜在空间中，这个潜在空间可以被解码成图像，或者转换成另一种数据模态，比如门相对于无人机的姿态。（来源：微软）

该系统的感知模块将输入图像压缩到上述的低维表示中，从 27,648 个变量下降到可以描述它的最基本的 10 个变量。解码后的图像提供了无人机可以看到的前方情况的描述，包括所有可能的门的大小和位置，以及其它不同的背景信息。

图 | 由跨模态表示生成的虚化图像的可视化，解码后的图像直接捕捉到门对应的背景信息（来源：微软）

研究人员在 45 米长的带有门的 S 形轨道和 40 米长的带有不同门的圆形轨道上，分别测试了这个系统的能力。他们表示，使用 CM-VAE 的效果明显优于直接编码下一位置的端到端 AI 策略，即使背景存在 “强烈” 的视觉干扰，无人机还是通过使用跨模态感知模块成功完成了任务。

图 | 45 米长的 S 形轨道和 40 米长的圆形轨道（来源：微软）

研究人员表示，这些结果显示了该系统在现实世界应用的 “巨大潜力”。比如，尽管存在年龄、体型、性别和种族差异，该系统可能帮助自主搜索和救援机器人更好地识别人类，从而让机器人有更好的机会识别和找回需要帮助的人。

不完美的实验

尽管无人机的实验结果着实令人兴奋。但研究人员表示，他们在实验中遇到了一个意想不到的结果，即将未标记的真实世界数据与标记的模拟数据结合起来训练表征模型，并没有提高整体性能，只使用模拟数据效果更好。

对此，他们认为，未来工作的一个有趣的方向是使用对抗性技术来降低由模拟和真实图像编码的相似场景之间的潜在空间距离，这将降低训练和测试阶段数据分布的差异。此外，研究人员设想扩展使用无标签数据进行策略学习的方法。比如，除了图像之外，是否可以结合不同的数据模式（激光测量、甚至声音）来学习如何对环境进行表征。

尽管还存在一些问题，但无人机实验的成功证明了这种方法具有应用于其他真实机器人任务的巨大潜力，其他机器人同样需要类似的能力来实现实时解释输入，并在确保安全操作的同时做出正确决策。

GitHub 传送门：

https://github.com/microsoft/AirSim-Drone-Racing-VAE-Imitation