一个具有高尔夫球样凹凸不平表面的茶壶。
人工智能中的深度学习计算机网络到底有多智能?这些机器在多大程度上模仿了人类的大脑?针对以上问题,美国加州大学洛杉矶分校的一组认知心理学家近日在《公共科学图书馆计算生物学》(PLOS computing Biology)杂志上发表报告称,近年来,这方面的研究虽取得了很大进展,但仍有很长的路要走。
支持者们对利用人工智能完成许多传统上由人类来完成的个人任务,甚至是工作表现出了极大的热情。然而,本研究的五个实验结果表明,深度学习计算机网络很容易被欺骗,它们所使用的计算机视觉与人类视觉有很大的不同。
“机器有严重局限性。”加州大学洛杉矶分校(UCLA)著名心理学教授、该研究的资深作者Philip Kellman说,“我们在说,‘等等,别那么快。’”
机器视觉也有缺点。在第一个实验中,心理学家向目前最优秀的深度学习网络之一——VGG-19展示了一些被修改了的动物和物体的彩色图像。举例来说,一个具有高尔夫球样凹凸不平表面的茶壶;一匹具有斑马一样条纹的骆驼;一头颜色像蓝色和红色菱形花纹袜子的大象。VGG-19识别图片后给出了可能的答案选项,并对这些选项进行了排名,结果在40个对象中,只有5个的正确的答案被列为了第一选项。“欺骗这些人工系统很容易。”加州大学洛杉矶分校心理学教授、合著者卢洪静(音译)说,“它们的学习机制远不如人类的大脑复杂。”
VGG-19认为大象是大象的概率是0,茶壶是茶壶的概率只有0.41%。该研究的第一作者、加州大学洛杉矶分校(UCLA)心理学研究生Nicholas Baker说,VGG19认为这款茶壶最可能是一个高尔夫球,这表明人工智能网络更关注物体的质地,而不是形状。Kellman说:“高尔夫球出现在答案中是完全合理的,但令人担忧的是,选项中没有茶壶。”“它没有考虑到形状。”而人类主要通过形状来识别物体。研究人员怀疑计算机网络使用了一种不同的方法。
在第二个实验中,心理学家向VGG-19和另一个名为AlexNet的深度学习网络展示了玻璃雕像的图像。这两个深度学习网络都经过训练,可以使用名为ImageNet的图像数据库识别对象。然而,两者的表现都很差,都无法识别这些玻璃雕像。VGG-19和AlexNet都没有正确地识别出这些雕像并将正确答案作为首选。在这两个网络中,一尊大象雕像被认为是大象的几率几乎为0%。大多数排在前列的回答都让研究人员感到困惑,比如VGG-19认为“鹅”是“网站”,认为“北极熊”是“开罐器”。平均而言,AlexNet在给出的1000个选项中把正确答案排在第328位。“机器犯的错误和人类非常不同。”卢说。
在第三个实验中,研究人员向VGG-19和AlexNet展示了40幅线条为黑色,底色为白色的图片。结果显示,深度学习网络在识别蝴蝶、飞机和香蕉等物品方面做得依旧很差。
在第四个实验中,研究人员向这两个深度学习网络展示了40幅纯黑色的图像。此次,对于黑色图像,深度学习网络的表现有了进步,有大约20幅图片的前五个选项中出现了正确答案。例如,VGG-19认为算盘是算盘的几率为99.99%,大炮是大炮的几率为61%。相比之下,VGG-19和AlexNet都认为白色锤子(用黑色标出)是锤子的概率小于1%。
研究人员认为,深度学习网络对黑色物体的处理要好得多,因为这些物体缺少Kellman所说的“内部轮廓”——使机器迷惑的边缘。
在实验五中,研究人员打乱了图像,使其更难被识别,但他们保留了这些物体的碎片。对于人类来说,通过这些碎片识别出原始物体非常困难。研究人员选择了VGG-19最初识别成功的6张图像,结果这次VGG-19成功地识别出了6张图片中的5张。
作为第五项实验的一部分,研究人员还测试了加州大学洛杉矶分校的本科生,向这10名学生展示了黑色轮廓的物体——其中一些被打乱了,难以辨认;一些没有被打乱。观察时间也被区分为一秒钟和想看多久就看多久。在只能看一秒钟的情况下,学生们正确识别出了92%的未被打乱的物体和23%的被打乱的物体。当学生们想看多久就看多久时,他们正确识别出未被打乱物体的几率为97%,识别出被打乱物体的几率则为37%。
由此,心理学家得出结论:人类关注于物体的整个轮廓,而人工智能网络则可以识别物体的碎片。
Kellman说:“这项研究表明,在不考虑形状的情况下,深度学习网络能够从训练过的图像中得到正确的答案。”“对人类来说,整体形状是物体识别的首要条件,而通过整体形状识别图像似乎根本不在这些深度学习网络的考虑之中。”
编译:Max
审稿:alone
责编:南熙