阿里最核心AI技术团队成型?芯片将有重要进展

2017 年 10 月11 日,阿里巴巴 CTO 张建锋在杭州云栖大会上正式宣布阿里成立达摩院,致力于开发基础科学、颠覆性技术,旗下设 5 大领域 14 个实验室,其中就包括主攻人工智能技术的机器智能实验室。

当时,恰逢人工智能技术开启商业化进程,阿里组建达摩院,也被认为是阿里全面升级人工智能的技术、商业布局的重要举措。

阿里不算在人工智能上布局特别早的国内公司,但随着达摩院这两年的成长,其在人工智能技术布局的深度、应用的广度上又到达新的阶段。尤其机器智能实验室,现已是整个阿里经济体中最核心 AI 技术的输出口。

图丨达摩院 5 大领域 14 个实验室(来源:达摩院)

这主要体现在,达摩院机器智能团队已经发展成为拥有 10 位 IEEE Fellow、20 多位知名大学教授的 AI 研发团队,源于达摩院智能实验室的技术,也正在成为阿里每日向全世界 15 亿人提供的百亿次服务背后的重要支撑。

“最核心的人工智能技术汇集在这个部门,我们这个部门定位支持所有其他阿里经济体对人工智能追求的最大核心技术研发”,近日,达摩院机器智能实验室智能技术事业部首席架构师王骏在接受 DeepTech 采访时如此表示。

图丨阿里巴巴人工智能版图(来源:阿里巴巴)

在机器智能算法体系上,阿里的 AI 技术研发方向已经涵盖语音智能、语言技术、机器视觉、决策智能等方向。采访当天,达摩院机器智能团队也宣布其自主研发的语音合成技术突破——KAN-TTS。

达摩院语音实验室高级算法专家雷鸣介绍称,该突破可大幅提高合成语音与真人发声的相似度,并将语音合成定制成本降低 10 倍以上。另外,当前业界商用系统的合成语音与原始音频录音的接近程度通常在 85% 到 90% 之间,而基于 KAN-TTS 技术的合成语音可将该数据提高到 97% 以上。

更大的变化是,对于像 KAN-TTS 这样的最新技术突破,阿里内部已经达成“最先进技术零时差上云”的共识,即“阿里有什么,阿里的客户就能拿到什么”。

(来源:达摩院)

在近 2 个小时采访的过程中,达摩院机器智能实验室和我们分享了其成立以来取得的主要技术突破,以及从实验室落地商业场景的逻辑,其中,一家国外公司被反复提及,而且和外界一般认知的不一样,这家国外公司并不是 AI 公司。它就是博世。

博世被屡屡提及的原因是,阿里已经明确发展 AI 技术要走“被集成”的模式,正如博世在汽车产业界中的地位和角色——尽管没有一辆车挂着博世的牌子,但博世的零部件几乎被集成到了每一辆车中。

(来源:博世)

目前阿里 AI 技术被集成的出海口,就是上云:AI 技术不但用以支撑阿里自己的业务,在某些特定场景中服务外部的频次还会大于服务内部。

但阿里现在并没有一个固化的标准去衡量达摩院的 AI 技术能够带来的具体效益。对此,王骏表示:“我们是整个智能技术被阿里云集成的概念,我们这个部门的价值是被集成的价值,而不是那种简单的商业价值”。

达摩院语音实验室负责人鄢志杰也提到,现在还远不到划分一二、抢市场排位的阶段,AI 技术究竟能够为阿里、为行业带来多大的价值,仍有待和行业的客户一起探索。

另外,DeepTech 了解到,在接下来 9 月的云栖大会上,达摩院还将宣布在 AI 上的重要突破,尤其是在芯片上的进展。去年的云栖大会上,阿里宣布将此前收购的中天微和达摩院自研芯片业务整合成“平头哥半导体有限公司”。平头哥成立的这近一年时间,达摩院的算法研发人员也和这支硬件队伍有了大量的探索和合作。

图丨阿里成立平头哥(来源:阿里巴巴)

以下为本次采访的 Q&A 精华(经过基于原意的删改):

谈研究方向:不会单做纯理论的研究

问:达摩院的属性有几个重点,它是一个全球性的研究机构,研究创新跟产品研发并重,在确定重点研究方向上会给研究人员一些自由度,也会兼顾短期、中期、长期的规划,听起来和微软亚洲研究院的感觉挺像的,你们会常和微软亚洲研究院交流对比吗?

鄢志杰:技术方面的互相交流也好,或者是互相观察也好,是很常见。马上要开的一场业内语音学术会议,我们有8篇论文发表,来自新加坡、中国大陆跟美国的实验室,也会在那个场子里面互相交流。在技术上,我们无论是与微软还是谷歌,都有很密切的交流。

但是我自己认为不同的点在于,建立这个团队的时候我们想把研究跟工程放到一起,希望有两个循环,第一个循环是研发可以迅速转化为产品,像我们在TTS的突破。从它的雏形做出来到最后的产品上线可能是非常短的一个耗时,让阿里云智能圈子里面的客户可以第一时间享受到。

同时,一个业务的需求如何沉淀为技术的成果?我们通过技术的工作、核心算法的工作,订制一个成本数量级,跟业务放到一起的好处是,任何来自于真实社会的诉求,会第一时间传到算法这边来,帮助我们有方向上的判断。所以你看到,我们团队不单单会做所谓纯理论性的项目,还会研发有实际应用情景的技术。

图丨鄢志杰,中国科学技术大学博士,IEEE 高级会员。长期担任语音领域顶级学术会议及期刊专家评审。研究领域包括语音识别、语音合成、声纹、语音交互等。曾任微软亚洲研究院语音团队主管研究员(来源:达摩院)

问:现在研究成果落地的场景是偏 C 端的多、B 端的多、还是 G 端的多一点?

王骏:从我的角度看,我们三个方面都有。例如语音,语音是 2C 的技术,但我们用它服务 B 端的客户,这是 2B2C 的模式。我们不做端到端的产品,而是做了一个模块去 B 端集成,另外,我们还有一个诉求是要服务开发者,整个阿里已经有很多开源的技术,包括语音上我们去年发布了开源的模型。将来我们还有更多的开源产品去供给个人开发者以及集成的客户。

问:现在在研发中遇到过的问题是什么?

王骏:我讲两个例子,刚才讲数字化到智能化,但很多行业数字化都没有做得很好。我们接触过这样的案例,行业很难形成一个标准的对 AI 的需求,技术供不应求,没有办法去做。我们有过几次尝试,发现这家做的东西那家用不了,这边的模型到那边不能用,基本上是信息化程度不够的行业。我们也做了一些变通的方法,例如开发自学习的平台,把制作 AI 的工具交给我们的合作伙伴,大家一起去做。阿里巴巴不可能把所有的事情都做了。

谈落地:最先进技术零时差上云

问:最先进的技术上云,但先进的技术用户不一定会买账,比如成本过高的时候它上云可能就会被冷落,这种情况怎么考虑?

雷鸣:被冷落是被市场或者客户冷落,我们跟市场客户站在一起,从客户市场拿到需求,整个过程中密切进行沟通,抓住他们的痛点做一些研发,做他们会愿意去接受、愿意花钱的产品或服务。客户很多时候愿意和我们去共创一些东西。跟客户站在一起往前走可以解决问题。

图丨张建锋曾提出阿里云战略加速的“四级火箭”:达摩院加持的云、数据智能的云、最佳实践的云和被集成的云(来源:阿里巴巴)

问:企业设立的研究机构怎样打破部门间的隔阂,怎么让研发团队和产品团队能够做好落地?为什么过去有些机构或项目做的效果不好、有的做的好?

王骏:我们部门跟其他部门不一样的是,我们底下有技术和工程、资金和产品,非常统一地整合到了一起,避免了很多技术低效率的问题,这是第一个。

整个对阿里集团来说,最核心的人工智能技术汇集在这个部门,我们这个部门定位支持所有其他阿里经济体对人工智能追求的最大核心技术研发,不可能去做一些硬件。这个背景下,我们从集团层面解决了内部的问题。

阿里的经济体非常复杂,我们找不出第二个有这样丰富场景的存在,涵盖电商、物流、娱乐等等,加上我们又是核心技术团队,比较有机会在业务支持中,先把技术提炼出来。比如大规模的分类问题,拍立淘的搜索技术要支持手淘的需求,工作量都是千万级的,我们开发这个技术,就要从图像搜索到图像识别都能支撑。

问:机器智能实验室今年有营收预期吗?

王骏:有也没有。我们是整个智能技术被阿里云集成的概念。我们这个部门的价值是被集成的价值,而不是那种简单的商业价值,因为人工智能技术和人工智能技术产品作为一个商品的存在,整个市场处于早期的阶段。

图丨达摩院至今在 AI 方向上取得的一些技术进展(来源:达摩院)

谈技术边界:芯片、中台、决策、深度学习框架

问:在达摩院内部,实验室和芯片团队的合作情况是?

答:因为阿里自己做芯片,算法跟芯片的团队有深入合作。芯片今年会有重要进展,但暂时不能透露更多了。

问:阿里在做技术中台,实验室在其中扮演的角色是什么?怎么有助于跟其他的业务去协作?

王骏:我觉得中台你要清楚是业务还是什么。我们刚才讲了跟业务平台合作,表明了我们不去做那种端到端的业务,只做核心的技术。语音合成的技术,我们做出了 KAN-TTS,不可能做政法行业或者教育行业的系统。我们提供弹药,通过伙伴去投放,他们做行业应用。

问:中台的建立有助于我们在阿里内部跟其他业务部门做协同吗?

王骏:我觉得这是一个非常好的方式,可以提效,避免低质量。在核心数据上有一个核心的团队去做,具体落地的时候,应用研发的可以交给业务团队或者生态伙伴去做,更好发挥作用。

图丨AI 大牛贾扬清今年 3 月加入阿里(来源:互联网)

问:今年阿里可能在 AI 上面,有一个比较重要的人事变动,那就是 Caffe 的核心作者贾扬清加入阿里云,他的加入会不会给达摩院的方向也带来一些改变?未来也我们会去研发一个自有的深度学习框架?

答:机器智能的四个实验室主要是在做机器智能技术应用层,他负责的是我们阿里云的大计算平台,还有超规模机器学习平台,是做训练的,比较偏底层,或者基础训练这一块,贾扬清的加入肯定对于阿里 AI 的发展是一个非常重要的助力。

问:达摩院的边界是什么?

王骏:整个达摩院的架构比较大。人工智能这个角度说,我们构建人工智能底层最核心的技术,从芯片到平台到上面的核心算法,语音、优化等等。但我们不会做行业应用,会在行业里面和伙伴去发展。一句话总结,我们做人工智能整个生产链中最核心的从硬件到平台到研发,大概就是这些。

问:在决策方面,目前探索了哪些方面?今后有什么计划?

王骏:我个人的理解,人工智能技术分为三个阶段,第一个阶段是过去的知识总结,第二个是预测,第三个是优化。决策和优化是最后面的环节也是最难的之一。

目前来说,我们整个决策技术是以对内服务为主,因为你要改变这个系统,实际上最好在这个业务里面有一个强大的交互过程,简单来说,就是语音计算怎么去优化,调度怎么去优化。这个方面我们仍以对内服务为主,从业务需求出发,然后进行汇总,服务好内部之后,再想办法去慢慢形成产品化以后对外输出。

鄢志杰:补充一下语音的情况。我们团队从成立到现在五年的时间,成果已经用在阿里淘宝和支付宝的客服,但是对外,我们的客户也有很多行业头部公司,比如说像中国移动,他们的客服量是非常大的,我觉得这些外部客户加起来的服务量,整体上已经远远超过我们用在内部的客服的服务量,这是我想澄清一下我们的技术对内对外的关系。

另一个补充,我们的技术对内对外会不会有区别?

对内无非是支付宝、淘宝的客服场景,遇到问题,实验室内部一起解决就好,但真正在对外服务的时候你会发现,很多客服中心的需求扑面而来。这个过程中我特别想提“共创”二字,而非“赋能”的说法。

为什么呢?苦苦追寻的 AI 技术本身到底对我们的生活、跟我们2B的整个商业到底能产生什么实打实的价值,未知。所以我不想用赋能,好像显得我们很有“能”一样,我想用“共创”这个词。

AI 到底能够在行业里产生什么价值?大家要排谁是第一、第二、第三,但可能连题目都还没有被定义。所以我觉得一切还为时尚早,而且现在已经过了单纯比拼算法、单纯打一个点的阶段,大家面临更广阔的未知,就是到底这些所谓的算法能在生活中产生什么价值。这个探索才刚刚开始,现在的体量离大家去竞争市场排位还很远。