站在5G的视角上,百度AI+视频确实大有可为

今年年初的时候,华为和沃达丰完成了首次5G通话测试,并成功实现了实时高清视频通话。遗憾的是,这一标志性的事件并没有在舆论中形成话题效应,大多数人对于5G的认知仍然停留在概念层面。

以至于当百度高级副总裁、百度搜索公司总裁向海龙在今年的百度联盟生态峰会上提出 “拥抱视频时代”的时候,部分媒体并没有完全理解其中深意,将其指出的“视频时代”与时下正在风口上的短视频画上了等号。短视频的火爆可以算是即将到来的“视频时代”的信号,但也仅仅是“视频时代”的冰山一角而已,且百度的野心也远不止于此。

问题的根源,还是要回到5G这个被视为下一代移动通信网络的视角上。

信息载体的迭代:文字、图片、视频

技术迭代的节奏约束了人们的想象力,也左右了大多数人的认知。好比说已经普及的4G通信技术,给人的直观印象是“快”,导致我们对于5G的理解就是网速更快。其实从信息载体迭代的角度,更容易跨过技术迭代所带来的认知鸿沟。

先从1G时代说起,“大哥大”一度象征着财富和地位,只是很多人对这个时代都过于陌生,所知所感所想无不来自于电影片段里。1G技术的价值,无非是把必须连着线的固定电话,在功能上变成了比砖头还要笨重的“大哥大”。

2G时代是手机连接互联网的开始,准确地说是让大家“尝鲜”,在一寸见方的屏幕上浏览新闻、邮件等,文字几乎是唯一的信息载体,应用场景自然比较局限,就连IM通讯也未能进化到语音沟通。

3G时代的手机开始成为名符其实的互联网终端,3G网络能够处理图像、音乐、流媒体等多种信息形式,诸如电商、游戏等五花八门的产品应用应运而生。不过对于经历过那个时代的老网民而言,最深刻的印象还是图片作为信息载体的流行,毕竟网速那么慢,游戏、视频的体验难言差强人意。

如果说3G打破了互联网的门槛,迈入4G时代之后看到的是互联网应用的繁荣,即时通讯、电商、移动支付、在线游戏、直播、短视频等等。一言以蔽之,4G时代已经有了视频作为信息载体的趋势,只是受限于带宽、可靠性、时延等因素,直播、短视频成为4G时代的幸运儿,实时高清视频、远程交互等还需要5G来解决。

理清了这个逻辑,再来看向海龙对视频时代的预言,兴许就不至于有那么大的误解。向海龙站在5G的视角上,预言人们的沟通方式将进入视频时代,人与人之间的沟通不再需要文字、图片等作为媒介,而是回归到“指手画脚的原始时代”,原因在于实时高清视频等让人们的沟通摆脱了时间和空间的限制。

作为旁观者的大多数人,仍然从4G的视角上理解百度的新动作,观点自然有些偏颇。同时向海龙观点的前瞻性却在资本层面得到了印证,流媒体公司Netflix的市值达到1536亿美金,正式超过传媒巨头迪士尼,出发点正是5G给予视频产业的机遇。

互联网+到AI+,视频成为百度AI的新场景

回到百度的问题上,一面是前景诱人的5G,一面是百度主张的AI战略,二者冲突吗?答案显然是否定的。

同样是在2016年的百度联盟峰会上,李彦宏发表了题为“下一幕:人工智能”的演讲下如果说互联网的第一幕是PC互联网,这一幕是移动互联网,而移动互联网的红利期已经基本结束,那么下一幕是什么?李彦宏给出的答案是人工智能。

前几年比较流行的说法是“互联网+”,其实百度的策略已经是“AI+”。在出行场景上,百度的应对之策是AI+汽车的Apollo;在居家场景上,百度打造了AI+硬件的DuerOS;在理财场景上,百度推出了AI+金融的度小满……而在内容消费场景上,百度已经打造了千人千面智能化推荐的信息流,在5G视频时代来临之际无疑将是AI+视频。

为何在4G和WiFi看起来已经普及的背景下,视频仍然只是文字、图片等信息传递方式的补充?向海龙归结了视频应用的四个难点:生产难——视频生产需要专业设备;存储难——需要很大的存储空间;传输难——传输速度慢和流量资费贵使得传输成本高;检索难——基于语义理解和字面匹配的传统检索技术难以在视频这种信息载体上直接应用。

折射到现实中来看,直播就是一个典型案例。受限于生产环节的痛点,大多数主播能做的只是改变背景布置,对于存储、传输上的尴尬,当前直播APP的清晰度清一色的AV画质,并且有着10秒左右的延时。

“拥抱视频时代”并非只是一个口号,在内容场景上有着充足经验的百度,正着手从AI的角度解决两个问题:一个是内容生产,另一个是内容检索。

比如要拍摄高质量的视频内容,特效是不可或缺,这也是国产电影和好莱坞大片最为明显的差别。百度的解决方案是通过AI的赋能让视频生产简单化,利用百度AI的人体识别、形体美化、人景分离、语音识别、语音合成等能力,可以实现“瘦身”、“分身术”、“变身”等特效,为复杂视频生产的简单化提供了新出路。

更令人头疼的还是视频的检索,当前流行的解决方案是人为给视频打标签或者添加文字描述,与智能化的目标相差甚远。百度的解决之道同样是AI,通过对视频的全景扫描,利用语音识别、人脸识别、物体识别等技术完整分析视频中的内容,将视频背景、人物、语言等信息进行组合,可以给每个视频生成一个独特的“指纹”,大幅提升视频检索的效率和准确率。

虽然百度并未明确提及,但显而易见的是,当视频的“指纹”被生成,配合百度基于大数据建立的用户画像,视频的分发将会前所未有的更加精准和智能。

可以预见的是,百度的AI技术以及5G时代的来临,解决了内容生产、检索和分发的问题,视频作为主流信息载体已然在意料之中。

写在最后

在未来面前,人类永远都是个孩子。

至少百度让我们看到了这样的前景,5G时代视频的应用将是颠覆性的:让精密手术的远程操作成为可能,尽可能地解决医疗资源的不平衡;躺在家里也能随时学习高端教育课程,打破时间和空间的限制;和朋友的交流不再是枯燥的文字和斗图,而是“面对面”的视频沟通;以及习惯于用高清视频来记录生活……

其实百度的“新视代”也很简单:只要哼唱一两句歌曲,百度就能帮你检索出这首歌的MV;只要用手机扫一下脸,就能找到一段视频中所有关于你的片段;当你偶尔在网上看到一段小视频,即刻就能找到视频的完整版;不一而足。

或许到了三五年后,再来回头审视百度当前的战略布局和技术探索,已经不会再有质疑和不解,取而代之的是清一色的掌声。