人工智能如何在视频新场景创建中起作用?

我要和大家分享的是人工智能和视频新场景创建,人工智能最近很热,大概从2015年或者说是2014年开始深度学习在各个领域都得到了突破性的进展,不只应用在视频领域其他领域也一样,比如说用于安防,用于金融,我们是专注于做这种消费级人工智能的。

今天和大家分享内容大致是,以深度学习为基础的人工智能技术,他与消费级视频的结合,以及他在应用场景创建的过程中的主要作用。

首先我要说的第一个事情就是,什么叫应用场景,或者说什么叫视频中的应用场景。大家可能比较熟悉的视频都是以看为主的,每个视频都是以做好让大家来观看,沉浸其中作为主要目的,但是实际上视频除了可以进行观看之外,也具有它自己的内涵,很多的内容都可以进行二次使用。这种基于视频内容的二次功能性应用,就叫做应用场景的创建。比如在视频中,有很多公司开始做一些与视频内容相关的购物信息推荐,与视频内容相关的投票,与视频内容相关的小游戏等等等等,这都属于把视频的价值进行二次挖掘,所形成的应用场景。

创建一个很好的应用场景其实重要的他有三个要素,我们称之为视频应用场景创建三要素。

第一部分我们称之为视频内容结构化,也就是说,我们首先要让电脑理解这个视频在讲什么故事,这个视频中都有哪些内容,把视频内容从一个黑盒子里拿出来变成结构化的可检索的数据库内容。

第二部分我们称之为体验美学,怎么样去创建一个很棒的用户体验。在基于对视频内容进行深度理解之后,其实视频内容本身是可以标签化的,比如这个视频有什么样的明星,他在讲什么样的故事,这个视频中出现过哪些关键的道具,哪些关键的物品,以及这个视频中的场景出现在哪些重要的场合之中,是悲剧还是喜剧,这些元素我们对它进行结构化以后,每一个不同的场景都会有他最适合的体验。所以一整套的基于用户体验美学为核心的前端应用或者互动应用,这样的一套应用体系,或者应用系统,是做好一个视频应用场景很重要的一个系统。

这个系统要求,第一,要与视频内容无缝贴合。第二,他还可以做出根据视频内容以及视频所承载的平台,以及当前场景,做出相应的UI功能方面不同的定制。甚至于说主题,通过主题模板配套可以快速的创建很多贴合内容的应用,那么这套系统,对于做好一个应用场景非常重要。

那视频应用场景创建的第三要素是大数据,我们有了结构化视频,并且基于这个结构化视频创建出了一系列的非常漂亮的成体系的这种互动应用以后,如果每个人看到都是一样的,这肯定是不能满足要求的。我们会根据大数据匹配,也就是把内容标签,广告电商,应用或者是教育类的一些信息标签,与我的用户标签也就是用户画像进行匹配,这样才能达到最佳的效果。那么这个在一个比较形象化的应用就是说,比如说芒果TV要在《爸爸去哪儿》节目中针对北方、南方不同的人群推送不同的饮料,北方人推的是啤酒,南方人推的可能是RIO。这种基于品牌,基于用户的这种推送就有赖于大数据的一个能力,其实也就是说,我们通过大数据来动态化的调整前端用户所看到的互动内容,甚至于不同的用户看到的比如说投票的选项,他的收集卡牌每一张卡牌的内容都有所不同,这样才能够达到我这种应用场景创建的目的,他的一个精准化或者说更加高效的实现。

创建一个完美的视频应用场景的话,需要几个方面的通力合作,第一个像我们这样的一个PaaS平台或者技术提供方,也有赖于视频平台提供它的整个内容,以及相应的播放的平台。但是,每一个视频应用场景一般来说都服务于广告商,教育的提供方,或者是电商的提供方,那么这样的话就需要形成一个由各方参与的利益格局,我们这边构成以AI为核心的商业模式,把各方都包含进来。

在开始讲视频应用场景各种案例之前,先跟大家介绍一下,消费级视频中的应用,人工智能这一块到底在做些什么事,能产生什么样的数据,怎么把视频结构化的。

首先自从人工智能开始大面积使用以后,各行各业都得到了长足进步。AI在视频领域其实应用还蛮多的,其实这一块应用最广的应该是在安防、金融方面,比如说非常有名的Face++,他就是以金融应用为主,主要以在视频之中识别出人脸,针对的视频更多的是来自于说照片拍摄,或者是一个摄象头所对应的一个视频,这个视频本身是功能性的而不是以观看为主的。那我们下面所说的所谓的视频,指的就是消费级视频,以分发观看为主要目的的视频,以大家所熟悉的影视剧、综艺、直播、短视频,这样的视频为主。

针对这样的视频,比如说我们现在面对一个电视剧,其实很多人在看电视剧之前,或者说我们要打广告的时候,特别希望知道这个电视剧到底在讲什么,他里面到底有些什么内容,现在唯一的大家能够做得办法就是我去看标题,看简介,但是具体里面是什么,其实并不是很清楚的,这时候唯一的办法就是把视频从头到尾看一遍,而我们现在所谓的视频结构化,就是代替人去做这个工作,就是我把视频里面到底都讲了些什么,里面有些什么人,什么商品,什么场景,都能识别出来以后形成一个大的数据库,从而用这个数据库作为一个基础,对他进行各种各样的分析,以及各种各样不同的应用。

视频中的人工智能其实分析下来应该是两大类,第一大类叫做识别,或者也就是大家所经常说的结构化,或者叫标签化,他所做的事情就是告诉你,视频里有谁,有什么,哪些场景。这块其实又分成四个大的品类,第一是人像识别,或者明星识别,我可以知道这个剧里面都有哪些明星,每个人出现的次数、位置,哪两个人曾经在一起出现过,所谓的两个明星同框,这是我们可以通过AI来进行识别,并且推送的。

第二部分,就是场景,场景又分为两大类,一大类叫场所,就是我将会看到,当前这个画面,或者当前这个故事发生在一个酒店里面,发生在客房里面,发生在客厅,发生在厨房,发生在海边,发生在卧室,各种各样的场所都有可能。另外一种,是场所里加上人的活动,我们称之为场景,比如说在饭店,加上一群人在一起吃饭,推断出他们是在聚餐;或者一个体育场大量观众跳舞,这大概能判断出是演唱会,这种是加上场所加上人的活动称之为一个大的场景识别。

场景识别非常重要的一个应用就是在于场景营销,如果我能够在一个海滩有剧烈的阳光,有沙滩有海水,这个时候如果我适当的去投一些比如说防晒霜的广告将会达到一个很好的场景的适配度从而产生很好的效果。还有另外一个例子,比如说在一个大的场景之中,有一张床,有一男一女,我们完全可以在里面投放一些杜蕾斯的广告,这也是场景应用非常好的一些投放方式,而且直接利用了视频里面的一些内容,而不需要去重新构建所谓广告所需的环境,这是场景识别很重要的内容。除此之外第三项我们叫物品识别,也就是说这个是跟我们这种商品的或者是叫物品广告直接相关的一种识别,当我能可以识别到这样一个物体,比如说我识别到车,我识别到了这个视频中有一辆车开过,我识别到这里面有酒,有饮料,有手机,那么对应的我将会投放我所需要的广告,可以达到很多非常好的联想的效果,那么这样的应用场景,在下面我会讲到说,这些识别将会在场景营销,竞品拦截,或者叫原生广告方面都有非常不错的应用。

以上的三部分我们都叫做标签化识别,也就是说你通过对一个视频进行扫描,可以告诉你这个里面有什么。

第四种就是我刚才说还有另外一种叫商品识别,商品识别很不同他不是标签化的,当我识别到这里面有一个商品,我并不能告诉你这个商品是什么,而是可以告诉你说,这个商品在淘宝,或者在京东,或者在某个电商里面,有某件商品可能跟他非常相像,或者叫相似款商品识别,因此这个不会以标签化为主,并不会打标签,比如说这是一件GUCCI或者LV的衣服,我只会告诉你说,在淘宝里面,这件商品和你这件商品非常像。

以上的这四种比如说明星识别,我可以识别出人,场景识别我可以识别出什么样的场景,物体识别我可以识别出有什么样的物体,商品识别我可以给出相似款的链接,从而大家可以去购物。

这四种主要的识别能力,其实对于视频而言非常关键,我们可以构建出这个视频里都有些什么我们所需要的信息对象,就可以构建出第一个数据库,这个结构化数据库叫对象库。那么除此之外,第一部分之后,除了识别我们还要做一件事情,就是我知道这里面有一个人,但是这个人在哪儿,也是非常需要知道的,我只知道他在哪个时间段出现是不够的,我需要知道他在这个画面中到底在哪个方位。

所以这就引出我们人工智能算法,就是视频中人工智能算法中的第二个领域,也叫做视频对象追踪,就是说视频对象追踪其实要做的事情,就是我们传说中的抠图,当我有一个对象以后,我要追踪他在视频中的轨迹,虽然他不停的运动,不停的形变。

这个里头就会涉及到三个部分。

第一部分是镜头切换检测,我要把一个视频切分成多个镜头,因为我跨镜头是没有办法追踪的,我镜头已经切走了,追踪将会变得没有意义,

第二部分叫对象检测,我首先检测到值得追踪的对象,这个当然是跟需求相关,

第三部分我们叫位移形变的追踪,我可以通过一个算法,把这个物体到了后面一秒钟再往后面一秒钟整个镜头里跑到哪儿去了,做出一个轨迹流来。

以上其实就是现在AI技术在于视频中最主要的两种应用,一种是识别,一种是对象追踪,这张图其实表达了一种就是我们怎么样去对一个视频进行识别追踪的一个数据库是怎样生成的,

这个视频表达的就是我们怎么样去用AI技术,把视频里面东西提取出来,以及他怎么样去指导广告和电商的应用。一开始我们对整个视频进行识别扫描,然后会生成一个我们叫关键词库或者叫Labal库的东西,从Labal列表里,选取以后,就可以看到每一个对象,比如说C罗在这个视频当中每一贞所处的位置,然后针对C罗这样一个对象,可以选择一个广告进行投放,最终达到的效果就是说,我可以批量化的把一个平台,比如说芒果TV在应用的时候,就能够将所有的黄晓明都打上某一款运动鞋的广告,这样可以做到快速自动化投放。

刚才给大家讲的其实都是很技术的部分,大家可能更容易理解的就是说应用的部分,我们把这么多的明星识别出来,这么多场景识别出来,到底有什么用?其实在各个平台,比如像芒果TV、搜狐这样的平台,其实已经有非常多的案例了,可能大家看到的时候并不会特别注意到这个东西是用人工智能做出来的。

所以我们下面介绍几种人工智能在视频场景中的一些核心的应用,当然可以应用的场景还有很多,可能几十种上百种,这些都是非常典型的一些。

第一种,就是现在应用比较广的我们叫视频场景营销,在搜狐、芒果TV、乐视,爱奇艺等等都有应用。

我们这边会有一个视频,特别希望大家竞猜一下他的广告是什么时候进入的?

他的广告的形式或者我们叫场景的形式其实很简单,就是大家所熟知的这种中插广告,或者叫插播广告,但是当你看完以后你就会觉得,这个与普通的中插广告还是有很大的区别。

当时在搜狐上使用这个案例的时候,一般的中插其实点击率都非常的低,或者大家观看的效果都很差,经过人工智能进行场景选择,我们对视频进行场景扫描以后,找到了这个广告最适合他投放的一个场景,从而一下插到他最适合的位置上去。在整个视频播放以后,其实在很长一段时间,很多人都会讨论说,这个视频,这个广告是什么时候插进去的,在不知不觉之中,其实内容和广告已经慢慢的融合在一起,当然并不是说,大家完全看不出来就最好,到广告的最后大家还是可以看到,已经进入一个啤酒的广告了,在这个时候其实已经让大家的心里防备放下来,并且反而觉得这是一种很有创意的广告,接受度非常的高。

这是搜狐做百威啤酒的案例,在欢乐颂中,搜狐选取了用AI的技术去选取了与百威啤酒,他啤酒本身广告素材一开始切入帧的那个场景,最接近的一贞,然后插入到原生视频之中大家在迪厅跳舞的这种镜头,无缝的过度到一个广告之中的大家正在跳舞的镜头,从而使得广告的露出效果非常好。搜狐这边整个在不同端可能数据展现不同,就使用的情景中插或者情景营销的方式,使得中插整个点击率在不同端提升到50%到100%不等,所以效果非常的显著。

还有第二个案例,是视频购物的案例,这个用到了我们视频识别的功能,也用到了商品识别和跟踪的功能。

在视频购物场景里面,就像乐视使用的视频雷达,当然我们现在所看的视频并不是说线上的案例,线上案例中间更多的是说,当我在视频中出现了一个用我们视频识别已经识别出来的商品,他的购物车就会发亮,当大家点击购物车或者是直接点击这个商品本身的时候,就会直接有相应的商品的介绍,从而就可以直接进行点击,进行购买,甚至于说直接视频中加入购物车,日后再去购买,这样的话其实因为与视频内容本身相关性极高,甚至于说直接是点击视频中的物体进行购买的,所以转化率高了很多。

除了视频场景营销以及视频购物之外,其实人工智能很大一块应用在于说,自动化运营的广告投放,结合大数据以后,效果更佳。这里面最常见的一种投放就是基于明星物品目标的批量化的投放,比如说当一个品牌,针对某一明星进行多视频的大量的投放的时候,就可以使用AI技术把相应的投放目标,比如说明星、物品全部扫描出来,不论有50部还是几百部视频,如果要进行批量化的投放,比如每当范冰冰出现,视频中都要求出现角标或者通过其他的方式,或者中插或者角标的方式把广告投放出去,这样只有AI,视频的AI还有一个很重要的应用,那就是基于视频内容的搜索,现在关于视频的搜索其实基本上都是基于视频标题或者是视频简介,而基于视频内容是没有办法进行搜索的,因为视频内容本身是一个黑盒子没有办法进行搜索,而我对视频内容结构化以后,我就可以看到视频中有什么明星,有什么场景,这个时候就可以进行视频内容的搜索。举例来说,我可以在芒果TV上面搜索所有的范冰冰在奔跑的画面,范冰冰在奔跑这个就是我们结构化分析中两个最重要的标签,通过对结构化的数据库进行搜索检索就可以找出对应的那个视频及其瞬间。

人工智能的一个更重大应用或者是对于社会效应来说很重要的,对于整个视频行业都有很大指导意义的应用就在于说,他形成基于结构化视频内容的大数据。大家都知道,其实如果你想知道现在每天产生多少故事,这么多视频里面到底哪个明星最火,什么样的视频最受欢迎,什么样的广告在其中被打得最多,其实是很难有的,或者说我们作为视频的制作者也好视频平台也好都是缺乏这样的数据做自己决策的依据的。而对所有的视频结构化以后,视频结构化很大的应用还在于说,形成一个视频内容的大数据,这是非常非常重要的,

比如说我们现在所有的跟视频有关的大数据都是基于视频本身的一些附属标签,附属属性,它的题目、简介、演职员表等等这些事先由人工编辑所形成的这种周边数据,当我对他进行内容进行深度挖掘和结构化以后,就可以直接从一手的数据获得整个我所需要的大数据。

比如说我可以获得明星热度指数,对这个月的所有的视频进行扫描,找出每个明星出现的时间,所有的在不同的热剧中的播放量都可以得到明星不同维度的明星热度指数。

还可以对视频之中的场景进行分析,从而得出室内室外等等不同的场景下,他在视频中出现的次数频度以及他对剧情的发展以及大家喜好程度的关系,从而对导演也好,视频制作者也好,有一个非常不错的一个指导作用。

当然我们更直接应用,当然是跟广告相关,广告电商相关,我可以把视频的内容以及与他在这个时间点上出现的广告的互动率,或者说他的效果进行分析,从而得出什么样的内容,什么样的场景,什么样的明星对于广告的推动效果最好,对广告主来说这是一个非常非常重要的内容,对他投广告是非常好的指导。

刚才第二趴其实讲的是我怎么对视频进行结构化,以及我人工智能结构化以后他直接的作用是什么,下面一趴是准备跟大家分享一下我对于视频之中进行一些创新的场景的创建的一些理解。

那现在无论是短视频还是长视频还是大视频,其实大家开始不再满足于视频只用于观看,视频被赋于更多的期望,视频新场景的创建,到底该怎么样着手,到底有几个方面呢?

第一块我认为很重要的应该是指的是视频的功能化,视频从单一的可以看,到可以互动,之后会越来越丰富,比如说在教育视频中,我们除了在视频中要能够学习到所有老师正在讲的内容,还希望能够和老师进行互动,老师可以出题让大家去答,甚至机器自动的判卷可以进行投票等等,这些都属于视频功能化的内容。

而视频功能化其实也分四大类,第一大类我们叫信息类,比如说在不同的视频之中我们提供互动的广告,像是爱奇艺创可贴,芒果TV中的灵犀音乐热点广告,都属于这一类的。

这种互动型的通过互联网驱动的热点广告,其实具有很大的很好的与原来的这种角标固定化的角标或者说称之为这种百纳的形态有很大的不同,

第一、可以通过互联网的方式,定制很多与内容非常相关的,与内容相关的动效,从而使他的出现不再突兀,当我发现这是一个音乐节目,比如说我是歌手,自动会选用比如说音效声波的动效,第二点,这个互动的热点本身是可点击可互动的,这样的话用户可以在打开的里面,打开的广告里面进行各种互动,从而使得对广告的印象会更加的深刻,同时他还带有一定的效果广告的特点,也可以引流到大家的目标页。

视频功能化里面,信息类的应用的第二大块,我们称之为百科,之前其实在很多地方都会有视频百科这样的需求,或者视频百科这样的功能,比较典型的比如说在各种风光片或者旅游片中,会出现有相关这个旅游地点的一些介绍,美食美景甚至出现一个关于这个场景的一个,关于这个地点的一些投票,这些都是可以通过一些信息类的应用,可以提供给大家,使得在一个较好的体验下完成。

当然这些都是跟内容相关的信息提供,比如说教育中的一些知识点的提供,老师的介绍,主播的介绍,旅游地点的介绍等等,还有一条是跟内容无关的,就是我可以及时的在视频之中推送出一些头条新闻,这个是跟用户相关,以及跟视频本身的属性相关。这样的产品其实互动率是相当高的,我可以在全屏看视频的过程中,了解到哪里哪里发生地震了,或者谁谁又出轨了,其实对于你不离视频皆知天下,这样的效果其实达到视频类头条的功能,为大家提供非常大的价值,其实视频这个领域也可以有自己的头条,从而达到同样的效果。

刚才所提的都是信息提供型的,是由视频的制作者向观众所提供的一种互动型的信息。第二类,我们叫互动类,投票、调研这些都属于在视频之中其实尤其在直播中非常非常好的的应用,比如说在2016年的超女直播中,以前的投票基本上都是靠短信来完成的,2016年超女整个投票都是使用的在直播中直接投票的方式来完成的,其实效果好,转化率高,而且可以得到实时的反馈。无论是体验还是效率,都得到很大提升,与投票相关的有很多比如说调研类的,任务完成类的,学生答题类的,选择类的等等,甚至于客服类的都可以像投票这样的。

在信息类和互动类的投票类之后,其实还有一大类视频中被忽视的应用,就是与视频无关但是与用户直接相关的,因为很多人会发现,当我在看一个主播直播的过程之中,或者我看一个非常好的连续剧的之中,我很容易忘记自己的很多事,这个时候,如果我全屏看视频,如果再视频之中有视频类的小提醒,视频类到12点请你订餐,而且立刻弹出最近的一家饭店里面你最喜欢的一个菜系,你一键下单不用离开视频,或者你看到一个电影预告片,你就可以一键下单可以买到最近一个电影院的票,这些都是非常棒的应用,可以让用户节省很多时间。

最后一大类,我们叫轻游戏类的,因为实际上游戏和视频本身其实有很大的相关性,很多人说现在的游戏越来越做的越像视频了,或者越来越像电影了,而很多电影越来越做的像游戏了。那么其实在很多平台上都会有这样的小功能,就是当他与内容相关的时候,我可以提供一些小任务,我们叫轻游戏的系统,比如说卡牌收集,在很多内容之中,其实为了让观众有很好的体验,或者说为了观众和内容之间发生很不错的互动,就可以在内容整个的视频之中埋设多张这样的卡牌,比如说总结的卡牌或者战队的卡牌收集起来以后会得到一个奖品,与粉丝可以达成很好的互动,并且可以引流。

熊猫在去年的一个活动中使用了一个叫爆灯的小游戏,就是让用户一起大家共同点一盏灯,当这个灯被爆掉以后,也就是所有的用户共同点击达到60万次的时候,将会发生一件事,主播换衣服的帘子就会一下掉下来,这样的话其实对下面的观众屌丝和主播之间的互动,其实就形成一种很紧张的任务关系,使得当时的互动率也好,效果也好,达到非常好的效果。

视频新场景里头除了把视频各种功能化以外,刚才我总结一下,其实视频功能化分为信息类的功能化,互动类的功能化,应用类的功能化,还有轻游戏类的功能化,还有几个不同的应用,还有视频的电商化,这个其实无论是直播、点播都是很重要的,因为电商对于任何一个互联网而言,都是不可忽略的一种变现的方式。

对于视频而言,其实要把他进行电商化,有两个主要的途径,第一个途径是进行电商商品的识别和购买,这个主要用于点播,当我在一个现代剧之中,比如说欢乐颂之中对他进行扫描,把里面所有的品牌货以及所有的女主播身上的衣服同款都找到,并且以互动购买链接的方式,直接放在播放器里面,其实转化率非常的高,这是视频电商化的一种。另外一种其实是跟直播相关,主播像现在很多平台都会有一个主播自己的叫宝贝列表,这个宝贝列表其实就是主播用来卖东西一个非常好的电商的工具。

视频另外一种应用场景创建其实是跟游戏直接相关,我们也叫视频游戏化,这个和刚才的轻游戏是不同的,轻游戏是以视频为主,游戏只是其中的一个小的浪花。但是视频的游戏化则不同,视频变成游戏其中的一部分,这个在很多直播平台里面,直播综艺,其实都正在尝试,就比如说把视频中每一个观众作为狼人杀的参与者,让主播共同来进行狼人杀的游戏这些都是视频游戏化很好的尝试。视频游戏化近期在各大直播平台应该已经开始做了,点播平台其实也开始做尝试,比如说一些悬疑类的节目可以做成App的模式,从而从技术上实现用户参与到视频的破案中来。当然视频新场景里头还有另外一种,这个可能和以上的互动型的不同,更多偏重于虚拟植入。这部分其实是用技术的手段使得我在不改变视频的情况下,可以在一个浮层里面把想要植入的物体给他植入进去,这个肯定对于很多内容制作者是一种福音。因为以前的植入要我事先排好剧本,把所有的东西,拍进去才可以,现在我们后期把他放进去,并且视频的场景创建有非常多的种类,我就不一一赘诉了。

1,董总您刚刚谈了很多技术上的问题,我想问下就像您刚刚分享的哪些广告案例的制作费用怎么计算呢?可以对比传统视频广告插入的成本来谈谈吗?

不同的广告形式的成本是不同的,差别比较大。中国产经新闻 一般而言,如果是批量化投放的话,用AI做比人工便宜很多。以场景营销为例的精细化投放来看,会增加一部分成本。但AI的成本是与视频时长关联的,而广告收益是与视频播放量相关的,所以越是播放量高的视频,AI部分的成本的比例越小。总体上新增成本可以忽略不计

2,比如,我现在需要所有范冰冰的视频,分析出来了,以后我又想要李晨了,是否需要再次分析一遍?

不太需要配置,因为一般的识别都是先做全量分析,对所有可识别的明星全部识别出来,存成一个数据库。之后再根据需要进行索引提取来进行应用

3,对视频内容进行插入,是否会牵扯到版权问题?

会涉及到,所以在做虚拟植入的时候,都会与内容方合作。这些技术本身是由视频平台来使用的,他们在应用这些技术的时候会去处理和规避相关的版权问题