在马斯克的 Neuralink 爆红之前,脑机接口已经被研究了四五十年,在用脑神经设备读取大脑信息方面,霍金曾尝试走在技术发展的尖端。
为了帮助霍金这样丧失语言和行动能力的人表达自己,科学家们曾尝试利用各种残存的运动能力,从几根手指到脸颊肌肉,从舌头活动能力到口型表达。发展至今,研究人员想直接从大脑中提取信号,并将之转述为文字或者操纵其他设备仪器。
Joseph G. Makin、David A. Moses 和华裔科学家 Edward Chang 近日在《自然·神经科学》杂志上发表了一项脑机接口最新研究,他们发现了一种能够以较高准确率解码神经活动,并将其翻译为句子的机器翻译算法。
图 | Chang Lab(来源:官网)
Edward Chang 有自己的实验室 Chang Lab,该实验室位于美国加州大学旧金山分校,是一个专注于研究语言及语言障碍者的活动机制的实验室。去年 4 月,Edward Chang 等人还在 Nature 杂志发表了开发出一种可以将脑活动转化为语音的解码器。这套人类语音合成系统,通过解码与人类下颌、喉头、嘴唇和舌头动作相关的脑信号,并合成出受试者想要表达的语音。
“10 年前,科学家首次从人类大脑信号中解码出语音,但是解码的精度和速度远低于自然语速。” 论文作者称。而其 AI 解码系统的最低平均错误率只有 3%,优于人工抄写 5% 的错误率。Joseph Makin 对媒体说:“我们还没有达到这个程度,但是我们认为这可能是语音假肢的基础。”
这是如何实现的呢?
语言是一种极为复杂的过程,在适当的时候选择适当的词汇,组成适当的句子并进行调整修改,最终发出适当的声音。目前,直接从脑电波解码语言的系统只能解码单音节,或在志愿者连续念出近 100 个单词的情况下解码 40% 的单词。
为了训练他们的 AI 以提高精确度和效率,三位研究人员 “聆听” 了四名志愿者的神经活动。所谓 “聆听”,即在四名癫痫患者脑中植入脑电极。研究人员向四名患者提供了 50 个句子,让他们大声朗读至少三遍,研究人员录了音频并收集了神经数据。
志愿者朗读的句子诸如此类:
“那些音乐家的和声棒极了。”
“她穿着暖和的羊毛工作服。”
“那些小偷偷了三十件珠宝。”
“厨房里一片混乱。”
为了提高脑机接口直接解码语言的精度,研究人员利用了机器翻译任务与从神经活动解码语音的相似性。也就是说,和机器翻译类似,解码语言也是从一种语言到另一种语言的算法翻译,两种任务实际上映射到同一种输出,即与一个句子对应的单词序列。只不过,机器翻译的输入内容是文本,而解码语言的输入内容是神经信号。
在剔除语音数据中的噪音之后,这些收集到的数据被添加到循环神经网络中,算法的任务就是分析收集到的神经数据,将规律性的神经特征表现出来,并最终具备对数据生成时所说的内容进行预测的能力。
经过深度学习,研究人员的算法很快学会了预测与神经数据相关的单词。如下图,部分句子的预测的误差很小,但也有一些预测极不准确。
图 | 未被准确预测的句子,左侧为患者说的句子,右侧为机器预测的句子(来源:论文)
研究人员表示,用已在一名志愿者身上训练过的算法去做训练,会更具有优势,也就是说,随着训练时间的增长和反复重复,AI 的训练会变得更容易和精准。但是,还需要开展进一步的研究来更加完整地调查这个系统的功能,将解码范围扩展到研究所限语言之外。
清华大学医学院神经工程实验室洪波教授在接受《科技日报》采访时表示,这项研究的难点在于两个方面:首先是采用了高密度微电极阵列,间距 4 毫米,多达 256 个电极,覆盖大脑皮层表面的关键脑区,获取了足够的神经信息用于解码。这种电极在国内尚没有可用于临床的产品;另外,研究中深度循环神经网络的训练,除了采用时间轴上的卷积操作提高特征提取能力,还把语音频谱特征也作为训练目标,大大降低了对神经数据量的需求。
通过直接记录神经控制信号来合成语音或文字,是实现自然语言高通信速率的最直观手段。这一技术可能将用于瘫痪患者、高位截瘫患者和渐冻人等,也有助于为诊断和治疗其他严重疾病提供解决方案。虽然还存在长效电极和解码效率的问题有待解决,但正如洪波所言,以深度学习为代表的人工智能技术发展,为脑机接口打开一条应对该挑战的新路径。
图 | Edward Chang(来源:UCSF)
Edward Chang 博士是加州大学旧金山分校的神经外科医生,专门治疗顽固性癫痫、三叉神经痛和脑瘤。他的科学研究专注于人类语音、运动和认知的大脑机制。他共同领导了加州大学伯克利分校和 UCSF 的神经工程与假肢中心,该中心汇集了工程、神经科学、神经病学和神经外科领域的专家,共同开发最先进的生物医学设备,以恢复神经障碍患者的功能。