人工智能成为热门话题,在如今这个科技飞速奔进的时代,不知你是否想过,也许可以换一种智能化的方式完成搜索——比如,跟机器说话。
不久之前,百度举办了首期语音搜索开放日,包括百度技术副总裁王海峰在内,百度三位核心技术人员向媒体介绍了深耕已久的语音搜索技术——很好理解,通过语音完成搜索行为。
不同于其他人工智能技术的亦真亦幻,语音搜索是那种直觉上理应拥有的技术,它在几十年前就是科幻作品中的标配。然而作为人类思维和知识的基本载体,语言(尤其汉语)的独特让其成为AI历史上最困难的方向之一。不难理解,从战胜李世石便知,机器无比擅长逻辑与程序性的单一任务,但人类自然语言并非形式语言,长久以来,机器无法分辨人类语言——甚至许多时候唯有母语使用者才能体察到的奥妙,这也让语音搜索变得艰难。
但它必须进步。无论如今智能手机的井喷亦或未来整个IOT产业的崛起,人们都在企盼一种与机器更自然的交互方式,而语音搜索是最佳入口。这个世界上的科技巨头无一不在强化语音技术的研究,谷歌某位资深工程师就曾表示,人工智能下个里程碑就是自然语言理解。
在百度技术副总裁王海峰博士看来,语音搜索并非“语音+搜索”1+1式的简单串联;语音技术,自然语言理解以及智能搜索的结合意味着一种趋向于完美的搜索样态,它将带动更庞大的搜索和服务生态。
事实上,种种迹象表明:语音搜索势必将成为未来人机交互的主流方式,这种变革可谓意义深远。
更好的沟通:机器理解人类背后的智能技术
先来说说这项技术。
语音搜索是一项集成了语音识别,多轮理解,语义分析等在内的复合型人工智能,其实现过程要比封闭式规则的围棋艰辛许多,它要求机器从思维,对话,情感等维度探寻人类充满不确定性的复杂行为——沟通。
而拆解百度语音搜索的核心要素,其技术起点应该是语音识别。简单讲,语音识别即是针对复杂多变的语音搜索场景,通过深度挖掘大规模用户行为数据,利用深度学习技术,理解用户的表达,同时针对汉语一音多义的独特性,结合用户个性化信息及语义环境在同音候选中优选更可能为用户需求的结果。
除此之外,人类正常沟通中无法避免的信息折损,也使得机器必须掌握多轮理解——在语音搜索中让人与机器基于上下文语境多轮交谈。具体而言,基于语义结构理解,指代消解等技术,理解用户会话的上下文信息,实现对话的补全与替换,从而真正理解用户需求。王海峰博士就分享了一个例子:当你语音询问手机百度“今天汽车哪个号限行”,机器会反馈结果,若你想继续询问明天的车号,正常人类一定会脱口而出“那明天呢?”,而目前百度语音搜索就能顺利理解这个简化的问句。百度大搜索总产品架构师景鲲则在现场演示:倘若用户想用语音搜索“孙莉的电视剧”,搜索引擎首先显示热门的“孙俪的电视剧”的结果,而只需要语音补充一句“茉莉的莉”,百度语音搜索的人工智能就能够结合这句话和上下文,准确理解并把搜索词从“孙俪的电视剧”改写成“孙莉的电视剧”。
当然,除了多轮理解,为了贴近更自然的对话方式,语义理解技术就变得颇为关键,这要求语音搜索必须包含对需求的理解和对数据资源的整合。而百度利用千亿级样本的文本语料训练深度神经网络模型,计算关键字之间的语义相关性,同时通过自然语言处理技术实现更深层的结构化语义理解,并结合海量知识库和用户反馈数据,让搜索引擎更智能地理解用户搜索需求。这意味着机器可以完成某种推理和对于推理的验证。譬如,当你发出“我要吃饭”的语音时,百度可以自动领会意图,直接进入与餐饮有关的界面。机器精准理解语音背后的含义颇为不易,而也尤为重要,唯有突破了语义理解的门槛,机器才能进一步理解人类真实意图,从而完成更为友善的交互。
更好的未来:人与机器的高效、人性化交互
确实,每个心向未来的人,都在渴念人工智能的尽早落地。语音搜索这种非物理接触式的人机交互方式,究竟意味着什么?从最基础的方面,它可以让那些不会打字、不爱打字,甚至不屑打字的群体用比打字更迅捷自然的方式获取信息与服务,数据显示,使用文本输入速度为1s/字,而使用语音搜索输入速度为100ms/字。
可以肯定,应用场景的变化无常无疑会让语音搜索将日趋成为主流。百度提供的数据显示,语音搜索的整体用户在2015年增长超过3倍,就像百度多模搜索部总监孙雯玉所言,早期尝鲜用户一旦用上语音搜索,其后产生的黏性非常之高,而在粘性用户当中,有60%的搜索需求都会使用语音进行表达。李彦宏也曾表示,未来五年用户的移动需求会发生质变,通过语音和图像等非文字形式表达的用户需求将超过50%。
毫无疑问,年轻用户的搜索行为正在向语音靠近,尤其对于生长在移动屏幕之中的90后和00后用户,与机器“对话”称得上是某种天经地义。就像成年人惊讶地发现,儿童和婴儿对于iPad等屏幕毫无违和感的本能触碰,当语音技术日趋成熟,90后与00后也将与机器的交谈视作生活本身——因为他们知道,无论是知识还是娱乐,只要你说出来,就能迅速找到想要的一切,何乐不为?
趋势:顺应人性的智能化生活
抛去技术不谈,至少在现阶段,不少成年用户对语音搜索的本能排斥大概可归为两点:担心隐私(理性角度)以及感觉“怪怪的”(感性角度)。关于第一点,技术就可以解决,语音搜索技术完全可以让用户在公共场合用只有自己才能听见的微弱音量与机器对话。我想重点讲一下第二点:观念。
在许多特定的技术和观念拐点,年轻人永远站在正确的方向,倘若你对一代人的集体行为满怀不解,那么只有一个原因:你out了。技术革新与人类所谓的“主流观念”之间的撞击声,简直是科技进程之中的副本。每一项革新技术的诞生,似乎都是一次对过往主流观念的更新。譬如微信普及之前,对着机器说话经常被视作怪咖;而手机能拍照之前,人们经常对自己会被陌生人录像而敏感,但从敏感到无感,人们只用了短短数年。因此完全可以想象,语音技术的“破冰期”将无比短暂,因为年轻族群早已习惯于此。
哪怕从客观角度,趋势也摆在那里。智能手机只是未来的一小部分,新涌现出来的科技将让更多人“被迫”转向语音搜索。智能设备日趋丰满,无论智能硬件,智能家居,无人汽车,还是智能机器人,不太可能指望全部通过文字与之沟通,而语音搜索能提高效率,以更顺应人性的方式体验智能生活。
纵观整个人机交互的历史,一个清晰可见的脉络是:主流计算设备的每次形态改变,必然伴随着人机交互难度下降——就像鼠标和Windows 图形界面之于个人电脑,电容触摸屏和iOS(及安卓)操作系统之于手机,语音搜索作为一种革命式的人机交互方式,在很大程度上消减了人类与机器之前的隔阂。
而从某种感性层面来说,倘若语音搜索有朝一日成为主流,那么它势必将人与机器的交流镀上一层情感色彩,它会加剧人类对于机器的依偎。人与机器共同进化以听懂彼此语言为前提,我坚信,以语音搜索技术为开端,人类终将打造出《星际迷航》那般终极意义上的移动设备。
还是那句话,在技术领域,未来十年将会令过去的十年黯然失色,而相信语音搜索技术的普及,即是通向那个更美好未来的重要一瞬。
李北辰/文(知名科技自媒体,致力于为您提供文字优雅的原创科技文章;微信公号:李北辰)