麻省理工学院媒体实验室的研究者们已经开发了一种机器学习模型,这种模型让电脑更加像人一样解译我们的情感。
在“情感计算”这个新兴领域,人们开发可以分析面部表情的机器人和计算机,让它们解译我们的情感并根据解译结果做出回应。其应用包括管理个人健康、保证学生在课堂上的兴趣、帮助诊断一些疾病以及开发有用的机器人伙伴。
然而这项技术面临的一大挑战是,不同的人表达情感的方式非常不同,这一不同依赖于许多因素。一些普适的差异包括不同文化、性别、年龄组之间的差异。但是此外还存在一些更精细的差异:每天中的不同时刻、睡眠状况、甚至对谈话对象的熟悉程度等都会导致你情感表达的差异。
人们的大脑天生就可以处理这些偏差,但这对机器来说很难。深度学习技术在近些年来帮助机器捕捉这些偏差,但这还无法精确到或能够适应不同的人群需求。
麻省理工学院媒体实验室的研究人员们开发了一种新的机器学习模型,这个模型通过几千个面部图像学习,获得了比传统模型更能捕捉到细微的面部表情变化的能力,可以更好衡量人们的情感。此外,通过使用一些额外的训练数据,模型还可以适应一个全新的人群,并达到同样的效果。这项研究的目标是提高现有的情感计算技术。
“这是一种隐蔽的管理情感方式,”麻省理工学院媒体实验室研究者及这篇文章的共作者 Oggi Rudovic 表示,“如果你想让机器人拥有社交智能,你必须让它们能够聪明而自然地对我们的情感作出回应,更加像人类一样。”Oggi Rudovic 在上周的机器学习和数据挖掘大会上进行了展示。
个性化专家
传统情感计算模型通常想找到一个“通解”。他们通过对一系列描述不同面部表情的图像训练来优化特征——如当笑的时候嘴唇是如何卷曲的——并将这些普适的优化标记在整个新图像数据集中。
而本次研究的科学家将个性化模型技术与“多专家模型(MoE)”技术结合,帮助挖掘细粒度的个人面部表情数据。Rudovic 说,这是首次将这两种技术结合并用于情感计算。
在多专家模型中,一系列神经网络模型被称为“专家”,每一个“专家”用于专门训练一个分开的任务并生成一个输出结果。研究人员结合了门控网络,这一网络可以计算每个专家成功解译未见过的新情绪的概率。“基本上,网络可以区别个体的差异并指出‘在这张图中这个专家的结果是正确的’。”Feffer 说。
对他们的模型来说,研究人员通过将每个专家与 RECOLA 数据集中 18 个个人视频记录进行匹配。RECOLA 数据集是一个公开数据库,供人们在为情感计算设计的应用平台上通过视频聊天交流。他们采用了 9 个主题训练模型,而通过另外 9 个主题来评估训练结果。所有的视频都被剪辑成独立的小部分。
每一个专家和门控网络都可以通过一种叫 ResNet 的分类神经网络帮助追溯到每个个体的面部表情。在这个过程中,模型基于数值的高低(如高兴或不高兴)和唤醒程度(如兴奋)为每一个框架打分。通常使用矩阵为这些不同的情感状态进行编码。同时,6 个人类专家标记每一个框架的数值和唤醒度,用来训练这些模型。
研究人员进一步对模型个性化,他们将一些剩下的视频作为训练模型数据,用另一些机器未见过的视频对模型测试。结果显示,在含有 5%-10% 新人群类型的数据中,该模型比传统模型表现有很大改观,这意味着模型的数值和唤醒度数据更接近人类专家的评分。
这一结果展示了模型可以通过有限数据集学习适应不同人群的潜力。Rudovic 说,“这很关键。当你遇到一个新的人群时,你必须找到一些调整微小面部变化差异的方法。想象一个分析某一种习俗人们的面部表情模型需要适应另外习俗人们的表情,如果模型不考虑这一变化,其表现将会变差。但是如果你从另外习俗人群中找一些样品数据来让模型适应,这些模型可以做得更好,尤其是在个人水平上。这就是我们这一个性化模型的重要性。”
目前对这种情感计算研究的可用数据还没有对不同肤色开放,因此研究者的训练数据是有限的。但是当这些数据可用后,模型可以被训练来对更多类型人群使用。下一步,Feffer 说,是“用更多元化的更大数据集”训练这些模型。
更好的人机交互
另一个目标是训练模型帮助计算机和机器人自动学习数据中的微小变化,以用于更自然的检测我们的感觉并更好的服务人类需要。研究者说。
例如,这个模型可以在电脑或移动设备上运行并追溯用户的视频对话,以学习其在不同环境中的细微面部表情变化。“你可以使用能识别人们感情的智能手机 app 或网站,它们将向你推荐如何应付这些压力,或其他对生活有负面影响的事。”Feffer 说。
该模型也可以帮助人们管理压力等负面情绪,这些情绪中的人们面部表情会有一些微妙的变化。“通过管理我们面部表情中的负面情绪,”Rudovic 说,“我们可以个性化这些模型并管理人们每天的数据与平均数据之间的变化,并进一步用作健康指标。”
一项十分有前景的应用,Rudovic 说,是人机互动,例如个人机器人或教育机器人,这些机器人需要适应许多不同的人的感情状态评估。例如,其中一个版本可能用于更好理解自闭症儿童的情绪。
贝尔法斯特女王大学心理学退休教授情感计算学者 Roddy Cowie 说,麻省理工学院的工作“阐明了我们的研究在这个领域到底到了哪种程度”。“我们的研究正在走向可以从人脸照片中识别出他们的高兴程度和多活跃程度的境界,”他说,“直觉上来讲,每个人给出的信号都会和他人不同,所以个性化的模型在情感识别中有更好的性能具有意义。这一个性化方法也反应了另一个有趣的点,训练多个‘专家’模块并集合对它们打分比只训练单个的‘超级专家’要更有效。这种算法的结合获得了满意的结果。”