谷歌推出新算法,要替你“脑补”电视剧

很多人特别喜欢在追剧的时候,猜下一集要发生什么事情。由于电视剧的发展都是通过视频和故事来联动的,所以这很容易。但是,假如机器想要做这件事,就变得困难很多,特别是在标签数据相对缺乏的情况下,没有大数据的支撑,AI 很难做出算力和算法,也就很难预测下一个视频镜头的场景。

或许这就是谷歌科学家团队研究其算法的原因,如今,这一能力终于被“搞定”了。根据 Google(谷歌)AI 官方博客的最新消息,谷歌研究团队开发出一种名叫 VideoBERT 的自我监督系统,处理各种代理任务,通过算法和算力预估句子之间的关系,在从未标记的视频中学习跨模态时间表示。

简单来说,谷歌这套系统,就是随着时间推移,提前可以预估视频的下一个动作和镜头,类比和模拟出来,目标就是将预估视频中展开的事件和动作与实际发生的一一对应。

例如上面的一段动图,这就是 VideoBERT 所要达到的跨模态学习。时间上,两个炒菜的视频从语音与视觉信号对齐,并且可以通过使用现成的自动语音识别(ASR)系统来提取,因此提供了自我监督的自然来源。

这一研究的作者,谷歌研究员科学家 Chen Sun 和 Cordelia Schmid 在博客中表示,VideoBERT 自我监督系统不仅可用于零射击动作分类和相关模拟生成,而且可以很好地转移到动作预期等任务当中。此外,谷歌研究团队也计划将预培训视频的数量扩大到更大、更多样化,为提高算力做准备。

VideoBERT 系统形成历程

去年 11 月,谷歌宣布推出全新的自然语言 AI 预训练系统 BERT,其旨在模拟句子之间的关系。具体来说,他们使用与语音识别系统句子输出相结合的图像帧,根据特征相似性将帧转换为 1.5 秒的视觉标记,并将它们与单词标记连接起来。然后,他们要求 VideoBERT 从视觉文本句子中填写缺失的令牌。

研究人员为 VideoBERT 培训了超过一百万种教学视频,包括烹饪、园艺和汽车维修。为了确保它学习视频和文本之间的语义满足一一对应关系,团队在视频数据集上,既没有使用视频也没有使用注释,来测试其技术的准确性。结果表明,VideoBERT 成功地预测了一碗面粉和可可粉在烤箱烘烤后可能成为布朗尼或蛋糕的情况,从视频片段中截成一组动图,说明(例如食谱)(令牌)反映了每一步所描述的内容。

(来源:谷歌 AI 官方)

虽然 VideoBERT 在学习如何自动标记和预测视频内容方面取得了令人瞩目的成果,但你要知道,视频的对应并不像图像的模拟效果,是需要更多的视觉信息,在目前的技术范围内,VideoBERT 的视觉令牌往往会丢失细粒度的视觉信息,例如较小的物体和微妙的动作。

所以,该团队使用一种名为 Contrastive Bidirectional Transformers(CBT)的模型解决了这一问题,该模型删除了标记化步骤,并通过下游任务的转移学习进一步评估学习表示的质量。 CBT 应用不同的损失函数,即对比损失,以便最大化掩蔽位置和其余跨模态句子之间的相关信息。根据一系列关于行动细分、行动预测和视频字幕的数据集进行评估,根据谷歌的说法,CBT 在大多数基准测试中的表现都显著超过了现有技术。

谷歌表示,在 CBT 模型的加持下,结果证明了 BERT 模型在学习未标记视频的视觉语言和视觉表现方面的强大功能。而通过 VideoBERT 系统,不仅可用于零射击动作分类和配方生成,而且可以更好地做相关代理任务,例如动作预期。未来的工作包括与长期时间表示一起学习低级视觉特征,从而更好地适应视频环境。

谷歌华人科学家和 IEEE 专家共同操刀

根据谷歌方面的信息显示,这一研究成果是由谷歌的华人科学家 Chen Sun 和法国国家信息与自动化研究所 Cordelia Schmid 共同发表的,其核心成员包括法国国立应用科学学院 Fabien Baradel、康奈尔大学 Jack Hessel 等人,都是 AI 领域和机器学习方面的专家和“大拿”。

值得一提的是,Chen Sun 是一位 AI 领域非常知名的研究者,目前其 Title 是谷歌研究科学家,也是一位“清华人”,2011 年,Chen Sun 毕业于清华大学计算机科学系。然后在美攻读博士,2015 年毕业于南加州大学的哲学博士(PhD),计算机科学学位。

图|Chen Sun(来源:谷歌学术官网)

2014 年,他加入了 Google Research 团队,2015 年曾短暂在 Facebook 的 AI Research (FAIR)团队工作过,之后到旧金山的谷歌研究团队工作,直到现在。根据其所述,目前他与 INRIA 研究总监 Cordelia Schmid 密切合作,研究类型包括人类动作识别和视频动态预测,曾从事物体检测和网络监督学习等。

2016 年,Chen Sun 和同事一起,赢得了当年的 COCO 物体检测挑战(COCO object detection challenge),以及 2017 年的 iNaturalist 挑战(iNaturalist challenge 2017)。他们研究的对象检测算法已作为 Tensorflow Object Detection API 进行开源。为了促进对机器感知的研究,Chen Sun 还致力于数据集收集,特别是用于人类行为识别的原子视觉动作数据集,用于物体检测的开放图像数据集和 iNaturalist 用于细粒度识别的数据集等。

图|Cordelia Schmid

另外一位 Cordelia Schmid,是谷歌的兼职科学家,拥有卡尔斯鲁厄大学的计算机科学硕士学位和格勒诺布尔国立综合理工学院(INPG)的计算机科学博士学位。她的博士论文于 1996 年获得 INPG 颁发的最佳论文奖。

自 1997 年以来,她在 Inria 担任永久性职位,即法国国立计算机及自动化研究院的研究总监。另外,Schmid 博士是 IEEE PAMI(2001—2005)和 IJCV(2004—2012)的副主编,IJCV(2013 ---)的主编。她在 2016 年获得 Inria 和法国科学院大奖。是机器智能和机器感知方面的专家。

2018 年 2 月开始,Schmid 博士被谷歌邀请,在 Google France 做兼职(50%),所以她现在是谷歌的兼职科学家。