将人类之间的对话转录成文字一直是机器的噩梦。即使语音文件质量很高,没有任何背景噪音,算法依旧要努力区分不同的声音,中断,犹豫,纠正,以及冗长会话中的细微差别。
微软研究院的一篇新论文宣称他们的语音转录技术已经能小胜人类对话转录专家,即使人类专家的文本已经接受了另外一个人的复核。研究团队并没有将此成就归功于算法或者数据上的突破,而是对现有的AI架构进行调整。
为了测试他们的算法能否跟人类分出胜负,研究者们首先要确定一个基线。微软找来一个第三方,他们有一个确认100%正确转录的音频。测试分两个阶段:一个人听写音频,第二个人听音频并纠正转录的错误。比照正确的文本后,专业人士的错误率为5.9%和11.3%。
在学习完2000小时的人类讲话后,微软的系统也听写了同样的音频,错误率为5.9%和11.1%。这0.2%的差距就是少了12处错误。
微软的下一个挑战就是让这一水平的语音识别在更加嘈杂的环境里工作,比如在车内或者在趴体上。视线这个对微软而言极为重要,而且它也远远超出了转录本身。
这项研究是微软力图让人机对话更加流畅和轻松的重要一步。如果电脑无法理解一个人的画,那么它完成指令或者回答问题就会更加困难。微软要想取得其他方面的突破,这是基础。今年早些时候,微软CEO萨提亚?纳德拉说人工智能是该公司的未来,而会话能力则是它的基石。
尽管它取得了成功,但是人工智能系统跟人类转录员还有一个巨大的区别:它不能理解对话中那些细微的变化,比如“嗯”。出现“嗯”的时候,往往是一个人在对话中正在思考,或者是让对方继续说话,比如“嗯哼”。专业的人类转录员可以注意到这是犹豫还是确定,但是机器就会忽视这些微小的线索,它们无法理解其中的含义,也不知道为什么会发出这样的声音。
文:许叔/煎蛋网
关于煎蛋:资深新鲜事推送鸡。网站 Jandan.net,公众号:煎蛋(公众号ID:jandancom,并没有i)