如何从图像中分辨出两个人是家人还是陌生人?场景、人与情境对象之间的互动等均是识别的重要线索。
多粒度推理框架概览。
Tech Xplore网站1月26日发文称,北京大学和京东人工智能研究中心的研究小组开发了一种用于社会关系识别的多粒度推理框架。研究人员在arXiv上发表的预印本论文对推理框架进行了描述,并通过训练模型分析了不同场景中的人物图像,预测了他们之间的社会关系。有效推测人与人之间的社会关系,可以帮助智能主体更好地理解人类的行为和情感。基于图像的社会关系识别系统需要将图像中的人物之间的关系划分为预定义的关系类型,如朋友、家人、熟人、陌生人等。
图像分析型社会关系识别工具在个人图像采集和社会事件理解等方面具有广泛的应用前景。深度学习领域的发展为社会关系认知开辟了新的可能性。然而,由于视觉内容和社会关系之间的巨大差异性,自动识别图像系统中的社会关系分析是极具挑战性的。现有的大多数方法都是通过独立处理面部表情和身体外观等特征进行分析,缺乏更高维度的系统性分析能力。新框架系统项目的研究人员认为,现有的社会关系识别方法通常是利用低级的视觉特征,如人的外貌、面部特征和背景物体进行分析。虽然也有少部分方法探讨了人与物之间的关系,但它们也只是简单考虑了图像中的共存关系。仅依靠单一粒度的分析很难克服视觉特征与社会关系之间的领域差距。
对特征进行单独分析,通常无法捕捉到多粒度定义,如整体场景或人在图像中的位置,以及人与对象之间的交互等。为了突破这些局限性,北京大学和京东人工智能研究中心组成的研究团队设计了一种多粒度推理框架,用于图像中的社会关系识别。该框架可以从整体场景中获取全局信息,从图像中人员和对象所在的区域获取中级细节,还能探索人员的细粒度姿势关键点,以揭示人员和对象之间的交互。研究人员解释说:“具体来说,姿势导向的人-物体图像和人-姿势图像可分别用于模拟人与物体的动作和人群之间的互动。”根据图像资料,再利用图卷积网络进行社会关系推理,最后综合全局特征和理性知识作为社会关系认知的综合表征。
研究人员利用两个大型社会关系数据集(PISC和PIPA)评估了他们的模型。PISC数据集主要包含了日常生活中常见社会关系的图像,而PIPA数据集则包含基于社会领域理论标注的图像。在对PISC和PIPA的评估测试中,他们开发的模型取得了显著的成绩,效果超过了多种最先进的方法。
尽管有这些令人鼓舞的结果,但开发识别社会关系的工具仍然非常具有挑战性——特别是当分析对象的社会关系属于亲密关系时,即便是人类也很难准确辨别。在未来,研究人员计划探索系统分析图像关联线索的新方法,并克服因可用数据缺乏带来的挑战。
编译:德克斯特
审稿:阿淼
责编:南熙