“尽管过去整个市场在声学包括语音技术领域一直很活跃,但是真正像今天能形成大规模产业化的机会其实并不多,我大概从业有 20 多年,我会觉得,这是我有生以来最好的一次创业机会。”声加科技 CEO 邱锋海对 DeepTech 说道。
声加科技成立于 2018 年 1 月,包括邱锋海在内的多名核心高管都来自中科院声学所,公司核心技术主要聚焦在全场景的语音前端处理方案上,目前在华为、小米、OPPO 等新近推出的 TWS 耳机上均有所应用。
自 2016 年苹果首次发布 AirPods 无线耳机之后,TWS 耳机市场逐年倍增,一个新电子产品品类就此爆发,很快成为各家主流手机厂商和音频厂商的核心产品之一。
TWS 是“True Wireless Stereo”的简称,即真无线立体声,TWS 耳机因其无线便携、佩戴舒适以及降噪功能、音质调教、交互方式等细节体验创新被越来越多的消费者青睐。据市场研究机构 Counterpoint Research、IDC 等数据显示,2018 年全球 TWS 耳机市场规模约为 54 亿美元,同比增长了 170%,2019 年全球 TWS 耳机出货量为 1.2 亿副,在 2020 年预计有望出货 2.3 亿副,市场规模将达到 110 亿美元。
市场的新动态再一次带动了声学、语音技术相关产业链的发展活力,在行业竞争日渐加剧的 AI 语音市场,还有哪些机会可以深挖?DeepTech 跟邱锋海进行了交流。
图|声加科技 CEO 邱锋海
多强争霸,但语音技术市场并未全面红海
从行业视角来看,得益于过去数年人工智能浪潮的推动,智能语音技术领域已形成多强争霸的业态。例如百度、阿里、腾讯、搜狗等互联网大厂均有重点布局,此外,科大讯飞、云知声、思必驰、出门问问等专业语音技术厂商也都在市场上积累拼杀了多年,竞争似乎已经趋于饱和。
对此,邱锋海有着不同的看法,他认为,目前市面上知名的头部语音公司,其实很多是做语音识别或者语音合成出身,这条技术路径比较依赖云端大数据的计算,过去十年,第一批语音技术厂商也赶上了互联网公司的高速发展期,很多早期的商业模式是想在云端建立服务,然后让 B 端或 C 端的客户去调用。
从 C 端客户的角度来说,对产品体验的要求其实是非常挑剔的。例如语音交互,在安静、近场、口音很标准的情况下识别率已经相当不错,但当产品处于一个远场交互、有干扰声音的嘈杂环境或者使用方言时,体验就会大打折扣,而且 C 端客户对产品的使用习惯和场景通常很随意,这也是很多头部语音技术公司开始调整战略,从云上往端上打的原因。
图|语音技术在端上的应用场景多且复杂
而到了终端,就出现了各种各样的细分市场格局,比如说智能音箱、智能家电、智能耳机、智能家居等等应用,各类语音技术厂商在这种情况下也都处于尝试摸索的阶段,因此,当下正是建立细分市场的一个非常重要的时期。
针对细分的终端市场,通常也需要更垂直的方法去落地,目前各类头部语音技术公司除了在云端形成了血拼局面,在终端上的竞争,其实大家的覆盖面并不算广,只是在各自瞄准的细分领域挖掘商业空间,比如有的公司在医院做口述病历方案,有的公司专门做智能音箱、故事机、机器人的整体方案,也有公司专门做 TWS 耳机之类的智能应用等。
所有的参与者对不同的细分垂直市场都有各自的理解,只有大家把所有的东西都做好之后,才能拼成一个更大格局的市场空间。而且语音技术现阶段仍不够成熟,存在一定缺陷需要不断的迭代,类似于互联网时代基于云端做一个软件服务就能把整个市场通吃的可能性几乎没有,智能语音技术的落地与端上的应用特性,以及跟硬件设备的关系都很密切,所以会带来很多细分市场的机会。
算法“硬”化是必然路径,造芯关键是准确定义能力
据邱锋海介绍,声加科技的“关键一战”是与华为的合作,华为荣耀 FlyPods 耳机集成了声加在定向拾音、语音降噪、风噪抑制等方面的 ENC 降噪技术。
2018 年,在前期的方案竞标过程中,团队凭借技术优势击败了来自一家以色列的知名语音和音频增强技术供应商,成功拿下了华为的订单,这是团队首次把技术应用到百万量级以上的消费品中,也在初始阶段提升了公司的收入水平和行业知名度,后来又陆续与小米、OPPO 等厂商的 TWS 耳机进行了技术方案合作。
“目前我们的核心竞争力、核心产品是在 TWS 耳机上的方案,因为耳机的量非常大,我们团队在这一块市场上抢占了一点先机,接下来会进一步深耕;另外,我们也在大客户中积极开拓智能音箱、智能穿戴设备等其他产品线的技术合作。例如今年疫情导致会议系统的需求量激增,有客户正在规划研发一套商务会议系统,在一些终端可能也会用上我们的方案。”邱锋海说。
图|地铁场景下,开启声加科技 SVE AI 降噪后的效果展示
相比较市面上的头部语音技术公司,声加科技的优势和差异主要体现在哪些方面?
邱锋海表示,第一个技术优势是能够很好处理比较复杂的声场景下的语音,这也是为什么团队选择从耳机这个品类做技术切入,因为耳机的使用场景非常复杂,而整个研发团队大多也是以声信号处理、声结构的技术背景为主,擅长语音前端处理;第二点是团队在低功耗、小资源计算方面有比较深刻的理解,公司的合伙人也有来自 IC 领域的专家,团队有能力在一个 TWS 耳机中非常有限的计算资源上去做出一个比较好的算法性能。
打个比方,人类听觉系统包括从耳朵、到耳蜗、听神经、大脑这一整套系统,类比到智能听觉系统,耳膜就是麦克风,耳蜗可以理解为 DSP 数字信号处理器,听神经可以理解为某个深度网络结构、做 NLP/NLU,大脑则可以理解成云端。很多头部的语音技术厂商更多地是在布局做听神经和大脑的事情,而声加科技是在做耳蜗、听神经以及声结构的事情。
图|语音前端处理技术示意图
据了解,目前声加科技的商业模式主要是把算法以 IP 的方式授权给客户,然后计量收费,例如每个产品要收取 5 元的授权费用,那客户出货 100 万个,声加就可以有 500 万的收入。邱锋海透露,目前的这个收费比例大概占一款产品出厂价的 1% 左右,这个模式很清晰,但同时也很有局限,长期规划其实是要把算法“硬化”,一条路径是做语音模组芯片,另一条路径其实就是去做整体的技术方案系统。
而在具体的发展策略上,由于芯片是项前期投入大、失败风险高的布局,因此,对于芯片的准确定义非常重要。就目前来看,智能语音应用市场非常碎片化,不同的时候会突然冒出一个有量的产品,很难定义一个芯片可以覆盖那么多市场,而芯片只有能起量才能保证生命力,如何判断出一个有量的细分领域以及这个领域是否具备前景非常具有挑战性。
因此,在摸索布局芯片的前期,声加科技现阶段仍会采取和其他芯片公司合作开发模组的方式,寻找精准投入的机会,在这个过程中也摸清楚产品从上游到下游整个链条里所有的盲点,为后期打造软硬一体化的系统方案积累经验。
“从声加的角度来讲,我们的核心是在端上,因为我们做 to B 的技术,会对客户的需求及市场行情有越来越深入的理解和认知,这中间是不是能找到某一类细分市场的芯片,做一个 ASIC(专用集成电路)去满足客户的需求?这完全是有可能的,但是核心是在于对 ASIC 有一个关键性定义,前期掌握的信息越深刻,后期能满足市场的需求的概率就越大。我们将来会不会去做云端的事情?我想也有可能,因为用户总会有个性化的需求,云端可以满足远程和定制的服务。”邱锋海对 DeepTech 说。
如何评判一个语音芯片的好坏,邱锋海认为除了计算功耗、架构创新、开发成熟度等指标,不同的场景对芯片的特性需求是差异较大的。目前不少做语音芯片的企业在做一种平台型的芯片,客户想要开发什么应用,直接往上面跑算法就好。但在不同的终端产品上,对芯片的特性要求可能各有侧重,比如在耳机上做语音唤醒交互,对功耗的要求比较突出,如果在黑白家电产品上,对芯片功耗可能就不是太敏感,考虑更多的是稳定性。
图|语音模组产品
TWS 耳机和智能穿戴还有较大增量空间
邱锋海认为,TWS 耳机市场目前还是一个良性的市场,所有的参与者都还有着不错的利润空间,不像智能音箱市场一样,做成了一个红海甚至血海的市场状态。
在业界看来,TWS 耳机会是一个品牌收割山寨的市场,目前包括华为、OPPO、小米等都有高中低端三个档次的产品推出,国产品牌接下来会有一个起量的过程,非常大的 ODM 客户和一些主流的手机品牌厂商都非常看好这个趋势。
而且,目前市面上的产品并没有充分满足用户的需求,这也是各类语音技术厂商的创新增量空间。比如有以下几个点:1、佩戴的舒适性和语音、听音乐的声音品质提升;2、ANC 主动降噪和组合降噪的功能;3、通话降噪;4、语音交互;5、健康需求。了解真实的用户需求,然后通过技术创新表达出来,做出更好的产品体验依然大有可为。
除 TWS 耳机之外,邱锋海也透露智能手表、智能眼镜等智能穿戴都有一点起量的势头,尤其是智能手表,从供应链来看明显看到各大厂商在相关芯片方面备货增多。
市场有乐观的前景,但当下却有生存的考验。新冠病毒疫情已经开始蔓延全球,这对科技行业和消费市场的影响不容忽视,很多企业和供应链在 2020 年上半年都面临着不小的挑战,不少科技巨头都纷纷下调了市场预期。
“这个问题最近我也一直在思考,目前来看过去的两个月各岗位人员的工作效率受到限制,行业内各公司都有不同程度的损失,有的客户 2020 年 2 月份的产品销量相对于 1 月份大幅下滑。接下来疫情的全球扩散对消费市场的影响到底有多大很难评估,我们也做好了收入下滑的心理准备。不过总的来说,还是要用谨慎乐观的方式积极面对。”邱锋海说。