MIT最新研究：加上“反馈”，AI算法可以看得更清楚？

人类识别物体的能力非常卓越。假如你在特殊光线下看一个杯子，或者从一个意想不到的方向去看杯子，你的大脑仍然很有可能认出这是一个杯子。这种精确的物体识别能力对人工智能开发者来说是一个难以实现的梦想，例如那些改进自动驾驶汽车导航的开发者。

虽然在视觉皮层中建立灵长类动物物体识别模型已经彻底改变了人工视觉识别系统，但是目前的深度学习系统相比生物系统已经被简化，并且还是难以识别一些物体，。

近日，麻省理工学院麦戈文研究所的研究员 James DiCarlo 和他的同事在Nature Neuroscience上发表的研究成果中提到，有证据表明，反馈可以提高灵长类动物大脑识别难识别物体的能力，添加反馈回路可以改进视觉应用中所用到的人工神经网络系统的性能。

图丨人工智能和深度学习视觉识别系统的艺术渲染图（来源：Christine Daniloff）

深度卷积神经网络（DCNN）是目前在快速时间尺度（小于 100 毫秒）上精确识别物体最成功的模型。它具有大体上与灵长类动物腹侧视觉流、皮质区域类似的结构，这一结构用来逐步建立所观察的物体的精确图像。然而，跟灵长类动物的腹侧神经系统相比，大多数的 DCNN 都很简单。

“在很长一段时间里，我们都没有获得一个基于模型的理解。因此，这一领域是通过将视觉识别建模作为前馈过程而开始的，”麻省理工学院大脑和认知科学系的系主任 DiCarlo 解释道，“但是，我们知道，在跟物体识别相关的大脑区域中，存在着重复性解剖学连接。”

试想一下，前馈 DCNN 和视觉系统中首次尝试捕捉物体信息的部分，就像一条穿过一系列车站的地铁线，而反复出现的大脑网络就像街道，相互连接，但又不是单向的。大脑精确识别物体只需 200 毫秒，所以这些反复出现的联结是否在物体识别的关键步骤上起作用，目前仍不清楚。也许这些反复出现的联结只是为了长时间保持视觉系统协调。例如，街道上的排水沟缓慢地排出水和垃圾，但是并不需要很快地将人从小镇的一边转到另一边。

DiCarlo 和本研究的主要作者、CBMM 的博士后 Kohitij Kar 一起，开始验证快速识别物体过程中这些多次出现的结构的微妙作用是否被忽略了。

首先，作者需要确认灵长类动物大脑能详细解码的物体。识别物体这一过程对人工系统来说，充满了挑战，结果证明这很关键。

Kar 进一步解释道，“我们意识到，人工智能模型实际上并不是对处理每一幅或被遮挡、或处于混乱状态的图像都有问题。”

作者分别让深度学习系统，还有猴子和人类识别一些“有挑战性的”图片，结果灵长类动物可以很轻易地识别物体，但是前馈 DCNN 就不行。但是，当他们将合适的循环处理加入到这些 DCNN 中后，上述物体的识别突然变得轻而易举了。

Kar 采用了空间和时间精度极高的神经记录方法，来确定这些图片的处理对灵长类动物来说，是否真的如此琐碎。值得注意的是，他们发现，虽然对人类大脑来说，高难度图片的识别似乎很简单，但是它们实际上涉及到了额外的神经处理时间（大概是 30 毫秒），这表明循环在我们的大脑中也存在。

“计算机视觉界最近在人工神经网络上成功堆叠了越来越多的层次，并且具有循环连接的大脑结构也已经出现。”Kar 说。

心理学教授、贝克曼研究所智能系统主题的联合主席、非本研究作者 Diane Beck 进一步解释道：“由于完全前馈的深度卷积神经系统现在非常擅长预测灵长类动物的大脑活动，这引起了人们对于反馈连接在灵长类大脑中所起到的作用的疑问。这项研究表明，反馈连接很可能在物体识别中发挥作用。”

“这对自动驾驶汽车意味着什么呢？研究表明，假如深度学习想要类比灵长类大脑，那么深度学习中物体识别所涉及的结构就需要循环组件，并且研究指出如何在下一代智能机器中使用这一程序。”

“随着时间的变化，循环模型提供了对神经活动和行为的预测，”Kar 说。“我们现在可以模拟更复杂的任务。也许有一天，这个系统不仅可以识别物体，比如人，还可以执行人类大脑能够轻松进行的认知任务，比如体会他人的情绪。”