AI自发激活了数量感,会挑选“最喜欢”的数字?

人类和部分动物都具有一种数量感知能力,不需要刻意数数,就能凭借视觉对数量多少得出一个基本判断,甚至直接抽象出具体数量。比如一张图片中有 4 个苹果和 4 只狗,人类在观察图片并识别苹果和狗的过程中,大脑自然而然就能形成 “两类物体都有 4 个” 这样的抽象概念。

虽然这种数感能力的准确率会随着数量级的上升而下降——我们很难凭感觉判断图片中有 100 只狗,还是 98 只——但是在一张有 98 只狗和 50 个苹果的图片中,我们依然可以对谁多谁少有一个大致准确的概念。

图 | 看一眼就知道有几十只狗(来源:VeryDoge)

更重要的是,这种能力似乎源自于大脑中的视觉感知区域,其中的神经元在受到视觉刺激的情况下,也可以同时激活一部分数感机制。

那么问题来了,我们发明的人工智能(AI),尤其是所谓的模拟大脑工作机制的神经网络,是否也具备这种能力呢?换言之,一个受到视觉训练的神经网络,是否可以形成类似的数感机制?

近日,来自德国和美国的科学家就这一问题展开了研究,得出的结论是肯定的。他们在训练图像分类 AI 系统时发现,一些神经元的激活模式与猴脑神经元处理数量信息时的激活模式非常相似,而且它们甚至还发展出了对特定数字的偏好,足以说明神经网络可以从图像中抽象出数量信息。

也就是说,在没有进行专门数数训练的情况下,神经网络仅凭视觉信息,就在一定程度上 “发展出” 了如何从中获得数量信息,产生了类似于人类和动物的数量感知能力。

证实数感能力的存在,或许可以证明我们对生物智能的复制在某些方面是富有成效的。该研究成果发表于期刊Science Advances上。

人与计算机的不同“脑回路”

刚刚提到,现有神经网络结构是尝试模拟人脑运作机制的产物,但计算机和人类的 “脑回路” 截然不同。

我们都知道,相比买菜找零都要算上几秒钟的人类,计算机的计算能力可以说是碾压般的存在,每秒钟可以完成上亿次的运算,还能保证相当高的精确度。当然,这也是我们发明它的目的。

不过,人类的强大之处在于,可以通过直觉感知场景中物体的数量,还具有很强的抗干扰和类比能力,计算机却必须收到确切的计算指令,比如给出图片中狗的数量,才能开始执行任务。

这种对于数量的感知能力也被称为“数量感”,指的是快速理解、估计和产生数量,并对数量进行表征以及理解数量间关系的能力。

研究显示,人类和动物的大脑中存在特殊神经元,能够对数量和数值产生反应。因此通过视觉刺激,我们可以对物体特征进行抽象并表征其数量信息,甚至不受物体大小、颜色和形状的影响。

遵循这一思路,德国和美国的研究人员将目光转换到神经网络上,看看是否可以从中挖掘出类似的神经元触发机制。

无师自通的分类模型

他们选择了受生物特性启发而成的分层卷积神经网络(HCNN)作为实验对象。该模型广泛使用于计算机视觉应用中,由多个前馈层和视网膜拓扑结构层组成,层中的每个网络单元都可以模拟不同类型的视觉神经元。

整个模型包含两套网络:一个是特征提取网络,可以将自然图像转化成(特征的)高级表示;另一个是图像分类网络,负责归纳和总结特征,将图像按可能性分成不同类别。这两个网络包含了卷积层和池化层。

图 | 训练识别物体的 HCNN 模型

模型构建完成后,研究人员使用了知名的 ImageNet 数据集进行图像分类训练,其中约有 120 万张图像。训练过程与数量感知毫无关系,HCNN 只是学习普通的图像分类任务,其分类准确率约为 49.9%。

随后,为了搞清楚神经元的激活方式,并且判断是否存在数感机制,他们移除了图像分类网络,仅保留了特征提取网络,而且模型的输入图片也从 ImageNet 变成了特制图片。

研究团队开发了三组用来刺激神经元的图像集,每一组都包含 30 张黑色图片,上面分别有 1-30 个白点。第一组的每张图片由大小不一的圆点组成。第二组每张图片上所有圆点的总面积相同,因此随着白点数量的增加,每个点的大小都会缩小。而第三组则包含了多种形状,比如圆形,方形和三角形等。

图 | 三组不同的刺激神经元的图像集

之所以选择这些图片,是因为它们几乎没有类别可言,不适合进行图像分类。可是如果将它们放入到 HCNN 分类模型中,得到反馈结果,研究人员就可以更好地查看神经元的激活方式是否与数感机制相关。

通过双向方差分析(ANOVA),他们可以筛选出那些对数量敏感的网络单元,同时避免对神经元的刺激和交互过程造成较大影响。

最终,在超过 3.7 万个神经元中,有 3601 个神经元(约 9.6%)出现了数字选择性,即出现了对某个数字的偏好,对相应的视觉刺激(图片)产生了反应。

具体来说,一个神经元只会对一个数字的刺激展现出最大的 “反应(response)”,就好像是它“最喜欢的数字” 一样。它的 “反应” 还会随着数字的不断变化而逐渐衰退,两个数字相差越大,“反应”的衰减就越明显。

图 | 不同神经元有自己 “喜欢” 和“不感兴趣”的数字

举个例子,一个 “最喜欢” 数字 4 的神经元,就会对一张包含 4 个白点的图像展现出最激烈的“反应”。如果给它看包含 12 个白点的图片,它就会展现出不那么激烈的“反应”。如果再增加到 30 个白点,它甚至都不会有什么“反应”。

将所有数据以曲线的形式表达出来后,研究人员发现,神经网络中神经元的激活模式与猴脑神经元的激活模式高度相似,就连两种神经元的喜好分布规律都非常相近:更多的神经元偏好小数字,其次是最大的数字,最后才是中间的数字,其中对 0-5 之间数字产生 “反应” 的神经元甚至超过六成。

图 | B 组图表:神经网络中神经元的激活(响应)规律;C 组图表:猴子大脑中神经元的激活规律;D 组柱状图:神经网络中神经元的偏好分布;E 组柱状图:猴子大脑中神经元的偏好分布

这意味着,一套经过视觉训练的图像分类神经网络,在没有接受任何计数训练和计算指令的情况下无师自通,其中的神经元对不同数字发展出了不同的敏感度,运作机制跟人类和动物大脑的数感机制十分相似。

该实验结果证明,数感能力天然存在于视觉系统的运作机制当中,伴随着获取视觉信息和视觉刺激,数量感就会以副产品的形式自然而然地出现。这或许也可以解释为什么在未经训练的情况下,婴幼儿和野生动物都会展现出数感。不过虽然数感能力可能是天生的,但它也是可以通过后天训练不断加强的,两者并不冲突。

另一方面,这项研究也证明了我们对神经网络的运作机制并非完全了解,仍然有尚未发现的特征提取模式,比如提取不存在于图像分类训练中的高级数字特征,却与人脑的数感机制类似,说明我们创造的神经网络可能比我们想象的更像人脑。

下一步,研究团队打算尝试更多类似的研究,试图挖掘出更多未知的神经网络运作机制,比如它会如何对待按数量多少顺序排列的物体,能否建立起与人脑类似的时间感知机制。这也是人类在计数过程中所使用的能力:理解 “每个数字都是前面数字 + 1” 这样的抽象概念,而不是单纯地将每个数字视为独立个体。