曾有不少学者提及,互联网时代,传统教科书上的木桶理论(一只水桶能装多少水取决于最短那块木板)已逐渐失效;相反,在同一产业链上,不同企业悉心打磨自身最长板,然后与其他企业最长板嫁接,第一时间形成合力和共振,才是最高效且聪明的竞争方式。
像是对于这种“积木式创新”的印证,6月20日,猎户星空和喜马拉雅FM等不同领域的“最长板”连在一起,发布了一款名为“小雅”的人工智能音箱。
也就在最近,市场研究机构Strategy Analytics发布的一份报告显示:去年全球一共卖出1400万台WiFi音箱,比前年增长了62%,这部分增量中,亚马逊的Echo系列就占了近八成(77%),估计出货量为500万台。另外根据Business Insider估计,Echo在全球已累计卖出900万台。Echo的成功也培育出如下共识:语音互动是“后手机时代”最值得仰仗的交互方式,而人工智能音箱或许是现阶段的最好载体。
也因如此,拥有海量音频内容的喜马拉雅将自己抛至智能音箱风口,并不令人意外,他们可以提供内容端的“最长板”。易被忽视的或许是这款智能产品负责“智能”的部分,其技术内核来自人工智能公司猎户星空提供的全链路自研的远场语音交互系统,它得以让用户在家庭远场环境中与机器用最自然的语言交互。
嗯,任何一款AI产品都是技术,内容与设计的妥善嫁接。颇值一提的是,在发布会上技术部分的宣讲者是猎豹移动CEO傅盛,他同时也是猎户星空的投资人。这很容易令人想到猎豹为自己许下的宏愿:“工具是今天,内容是明天,机器人是后天”。
当然,“机器人时代”的来临尚待时日,不过如傅盛所言:“人工智能距离我们心中的完美形象、完美概念,可能还需要五年、十年的时间,但是我们至少可以用手上的技术,先让小雅变成一个真正好用的音箱。”
而谈及好用,还得先从语音交互说起。
语音交互:下一个入口
被誉为“互联网女皇”的米克尔曾表示:过去两百年,人机交互一直在不停进化,尤其最近75年,每隔10年便会有一次巨大创新,而现在语音应当是最有效的输入方式。
事实上,摊开人机交互的历史,主流计算平台的每次形态改变,都伴随着“交互难度”的下降(譬如鼠标让个人电脑变得亲近,电容触摸屏让移动互联网时代成为可能)。如今随着整个IOT产业崛起,人们都在企盼一种与机器更自然的交互方式,而语音无疑是最佳入口,因为它最顺应人性(看看世界上有那么多阅读障碍者便知)。
但在过去很长一段时间,让机器与人类“正常”对话都很困难,因为这要求机器从思维,对话,情感等不同维度,探寻人类一种充满不确定性的复杂行为:沟通。
譬如,借助猎户星空的远场语音交互系统,智能硬件厂商可以实现非常人性化的语音交互体验——而所谓“人性化”有三个维度:唤醒,情感,以及沟通方式。
像“人”一样沟通
先说唤醒,小雅已经可以做到像真人一样有呼必应。
在技术实现的路径上,基于猎户星空汉字整体建模的CNN唤醒技术,这套语音交互系统可以实现高精度唤醒,并达到了行业领先的误报水平,在最大程度上压低误唤醒,解决人声回应对识别的干扰——你知道,这种干扰令不少同类产品不堪其扰。此外,猎户星空还拥有行业一流的麦克风阵列技术,之前麦克风阵列技术分为两套算法,一个去监听用户声音,一个回音消除,而猎户星空将两套算法的能力耦合在一个硬件基础上,这极大提升了整个算法的能力。
而人性化的另一体现,“小雅”是业内第一个真正做到人声回应的。发布会上,不善言辞,宅男感十足的喜马拉雅CEO余建军在台上多次演示了小雅被唤醒后,那一声如邻家女孩一般真实的:“哎”。这几乎将发布会推向一个高潮,台上观众掌声背后,是对如今大多数语音交互“金属质感”声音的厌烦。
猎户星空采用大数据情感语音合成技术与汉语语音合成引入重音技术,提升了汉语语音合成自然度,重音层次分明,这让她(你看我一直在用“她”而不是“它”)听起来被赋予了人格,而并非一台单纯的“语音合成器”。这种人声回应无疑会加剧用户对她的依偎——要知道,本能使然,人类其实都是“身心二元论者”,天生具有对客观世界各种物质实体赋予人格特征的倾向(譬如玩偶和宠物),当小雅被镀上一层情感色彩,能在最大程度上增强用户粘性。
当然,最重要的人性化体验,表现在沟通方式的细节上。譬如,与多数音箱先使用唤醒词唤醒后方可使用指令词操作不同,猎户星空采用了OneShort发问,即唤醒词与指令词一起说:用户说出“小雅小雅”的唤醒词后可以直接与她对话。
另外更重要的是,基于强大的语义理解,猎户星空系统做到了多轮交互。你知道,人类聊天都是基于上下文语境,不可能每句话都主谓宾齐全,信息折损严重,这意味着机器若想与人类自然沟通,就必须理解用户会话的上下文信息,实现对话的补全。事实上,小雅就可实现这一点,譬如当你问她天气怎么样,她会告诉你明天天气,你问“后天呢”或者“深圳呢”,她也会直接给你答案——这无疑是一种更自然的交流方式,至少不会像早年的Siri那般令人尴尬。
而谈及“上下文”,除了多轮交互,在语音识别方面,猎户星空采用了世界领先的多层单向LSTM的上下文无关音节建模——如你所知,在人工智能领域,近些年LSTM(Long Short-Term Memory,长短期记忆网络)被不少巨头青睐,它可以区分哪些记忆归位长期记忆,哪些记忆只需短期储存,从而在记住关键信息同时降低计算量。而具体到小雅,凭借出色的识别能力,猎户星空对喜马拉雅平台80%的内容都进行了深度语音校验,目前点播喜马拉雅TOP1000的播放内容能达到93%的准确率,远超同类产品。另外它还可以主动学习,以“猜你喜欢”及“订阅更新”推送内容,在对海量用户使用数据进行打磨后,为用户提供精准化智能推荐。
所以不难发现,猎户星空已经掌握语音唤醒,语音识别,语义理解和语音合成等一整套远场语音技术,这些环节相互融合的程度,决定了一款人工智能音箱用户体验的高度。
体验为王
嗯,所谓“人性化”,不过是以用户为中心的另一种说法。
尽管追溯科技史,任何产业的崛起都经历了“技术先导,产品跟上”的商业闭环,但闭环缝合的时长和效果却都并非一劳永逸。最根本原因是,当新事物破茧而出,很多概念也就混作一团,譬如AI。诚如傅盛所言:“真正的AI不应该仅有技术,不应该是一个大学教授的论文,更不应该是网站上刷分的选项,而是真正能和生活结合起来的产品。今天的AI我们看到太多炫技、PPT和Demo,太多为演示而存在的产品,太多为概念而存在的公司,太多只会做技术,不知道怎么把这个产品落地的形形色色的创业者。”
在小雅发布会上,傅盛通过汽车对比了工程师思维与产品思维的不同:前者的逻辑起点是“我有引擎,能怎么用?”,后者则是:“我要造车,需要什么?”——不难发现,工程师思维难免产生一种自上而下的炫技心态,而产品思维则要求产品经理以用户需求视角,自下而上反推产品形态。
从上述人性化设置即可看出,猎户星空显然是后者,与突然涌现出来的大多数语音公司不同,相比技术本身,他们更关注用户体验。再举个例子,他们首创了“一云多端,断电续听”功能:譬如你在喜马拉雅FM上是湖畔大学的听众,当你回到家要小雅播放湖畔大学时,哪怕你刚才是在路上用手机听的,她也会从你上次断的地方开始播——业内人士都知道,这是困扰智能语音产品许久的用户痛点。
嗯,不难发现,尽管上文谈及了不少专业词汇,但他们毫无炫技成分,因为在猎户星空——以及猎豹移动的产品逻辑里:将技术转化为用户体验,才是检验技术的唯一标准。
李北辰/文(知名科技自媒体,致力于用文字优雅的文章,为您提供谈资与见识)