▲认知心理学家Alexandra Jesse说,她的研究结果对人脸识别软件具有实践意义。利用人们说话的视频,比用一张静态的照片进行识别更加可靠。因为声音、静态照片加上动态表情的组合,呈现了一个更为复杂的个人特征,并且更难以伪造。
近日,认知心理学家、语音系统专家Alexandra Jesse研究证明,人们仅通过说话时面部的活动就能认出说话的人是谁。这项研究结果对人脸识别软件的开发、人脸识别技术的应用具有实践意义。
“在日常生活中,能够认出我们曾经见过的人是非常重要的。”Alexandra Jesse说。研究面部感知的人认为,当我们见到一张新的面孔时,我们从其面部了解到的是所谓的静态特征,比如脸的大小或肤色。他们并不认为我们还可以通过人们说话时嘴唇和面部肌肉的活动来识别一个人。“但言语感知研究领域的人则能强烈的感受到这些动态特性的重要性。”Jesse补充道,“我们知道,人们在交谈中若能看见彼此,那他们不仅依靠听觉,还可以通过唇读来感知整个对话。我的实验室正是研究这种视听语言感知的,旨在向人们展示倾听者可利用视觉动态特性来学习识别是谁在说话。”
为了验证人们是否能在没有其他线索的情况下,仅通过说话时的面部活动认出一个人,研究人员在两位志愿者脸上粘贴了23个白色纸片,让他们说一些短句并拍摄下来。随后,研究人员向听众展示了这些视频,视频没有声音和面部细节,听众只能看到黑色背景下移动的白色纸片。
在实验的训练阶段,听众观看视频,然后猜测视频中说话的人是谁。在猜测后公布答案这个过程中,他们认识了视频中的人。在随后的测试阶段,研究人员让听众观看志愿者说一些新的句子的视频。
“听众们学会了仅从视觉动态信息识别不同的说话者,他们形成了视觉动态信号的抽象表达。即使对方说的是新的句子,听者也能识别出说话者是谁。”Jesse说,“在我们所有的实验中,我们发现在短暂暴露中,多数人在8次以内便能习得识别以前不熟悉的人。之所以如此之快,是因为我们不只是简单地通过他们所说的某个特定句子来识别对方,而是任意一个句子。实验结果证实了我们不仅可利用与说话相关的动作识别谈话内容,还可以识别说话的人。
Jesse指出:“随着年龄的增长,仅从言语判断此人是谁会变得更加困难,如同仅通过静态特征识别人脸一样。年龄越大,就越需要注视着对方才能知道他在说什么。而基于本项研究,我们认为注视说话者对于识别谁在跟我们说话同样重要,它很可能间接地影响到言语知觉。”
此外,该项研究结果对个人识别或面部识别技术的应用也具有重要的指导意义,比如机场安检。利用某人正在说话的视频而不是静态照片,人脸识别技术会更加可靠。因为说话这个过程包含了静态和动态特征,提供了更多、更复杂的个人特征信息,从而更难伪造。