想象一下:当你参加派对的时候,周围播放着音乐,有很多人在跳舞,但是,你还是可以和你想要交流的人对话。是不是很神奇?
我们的大脑具有可以在嘈杂的环境中筛选出某个人的声音的卓越能力,而即使最高端的助听器也做不到这一点。哥伦比亚大学电气工程专业副教授梅斯卡拉尼(Nima Mesgarani)博士说:“在拥挤的地方,比如喧闹的街道上使用助听器时,会同时放大周围所有的声音。
虽然一些高级的助听器可以抑制特定类型的背景噪声(例如交通),但还是会将周围的对话音量无差别放大。这严重阻碍了佩戴者的有效交流。”一些人工智能交互设备,例如手机上的语音对话软件和智能音箱也有着同样的困扰。科学家将其称为“鸡尾酒会问题”,名字来源于在喧闹的聚会中混合在一起的刺耳声音。
▲人脑的辨声能力远胜任何一种助听器
“我们发现,当两个人开始交谈时,说话者的脑电波会逐渐接近听者的脑电波。”梅斯卡拉尼博士说。利用这些知识,该团队将强大的语音分离算法与神经网络结合,从而创建了一个系统:首先从一组声音中分离出单个说话者的声音,然后将每个说话者的声音与听者的脑电波进行比较,再将声音模式与听者脑电波最为匹配的说话者的声音放大。
为了测试该算法的有效性,研究人员与神经外科医生(同时也是该论文合著者)梅塔博士(Ashesh Dinesh Mehta)合作。在梅塔博士负责治疗的癫痫患者中,一些人必须定期接受手术。梅斯卡拉尼博士说:“这些患者自愿在我们通过植入患者大脑的电极监测他们的脑波时,听取多个发言者的声音,然后我们将新开发的算法应用于这些数据。”受到研究结果的鼓舞,研究人员正在研究如何将它转变为无创设备,届时只需将其置于头皮外部或耳朵周围就可以工作。
“到目前为止,我们只在室内环境中进行了测试,”梅斯卡拉尼博士说。“但我们希望确保它也能在繁华的城市街道或嘈杂的餐厅中工作,这样无论走到哪里,使用者都可以充分地感受周围的世界和人群。”
供稿/朱崇恺
本文选自《知识就是力量》杂志