MIT科学家发现识别文字的AI也能发现新冠病毒变异

伽利略曾认为自然是用数学书写,而生物学可能是用文字来书写。自然语言处理(下文简称 NLP)算法现在能够生成蛋白质序列,并预测病毒突变、包括预测能帮助新冠病毒躲避免疫系统攻击的关键突变。

上述之所以能实现,得益于一重要洞见,即生物系统许多特性可以用单词和句子来解释。麻省理工学院计算生物学家邦妮·伯格说:“我们正在学习进化的语言。”

过去几年里,遗传学家乔治·丘奇的实验室团队、Salesforce 团队等研究人员已经证明,蛋白质序列和遗传密码可以使用 NLP 技术建模。

最近,伯格及其同事的研究发表于《科学》杂志。在研究中,伯格等人将几种毒株集合在一起,利用 NLP 来预测能帮助病毒躲避人体免疫系统抗体的突变。病毒躲过抗体称作“病毒免疫逃逸”,该研究的基本观点认为,免疫系统解读病毒类似于人类解读句子。

Salesforce 科学家阿里·马达尼正利用 NLP 预测蛋白质序列,他说:“论文写得很好,延续之前工作的发展势头。”

伯格团队使用了语法和语义(或称意义)这两种语言学概念,病毒感染宿主的能力等遗传或进化适应性特征,可从语法正确程度的角度来解读。病毒传染性强,在语法层面为正确;病毒传染性不强,则为不正确。

同样,病毒突变可以用语义来解释。比如,病毒表面蛋白质突变,某些抗体便无法发现病毒,像这样导致病毒在环境中与其它事物区分开来的变异,便是改变了病毒的语义。病毒突变可以有不同语义,而每一种有自身语义的病毒可能需要不同抗体来解读。

为建立这些特性的模型,研究人员使用了 LSTM 神经网络,LSTM 诞生在基于变形金刚的神经网络出现之前,后者现为 GPT-3 等大型语言模型所使用。LSTM 等存在较久的网络所需训练数据比变形金刚少得多,并且在许多应用中仍然表现良好。

研究人员不是用数百万个句子,而是利用取自三种病毒的数千个基因序列训练 NLP 模型。这些序列为流感病毒株的 4.5 万个独特序列、HIV 病毒株的 6 万个独特序列、以及新冠病毒病毒株的 3000 到 4000 个独特序列。麻省理工学院研究生布莱恩·希建立了模型。他说:“由于对新冠病毒的监测较少,新冠病毒的数据较少。”

NLP 模型在数学空间中对单词进行编码,单词和单词间若含义相近,距离会更近,反之,距离则更远。这一过程称为“嵌入”。在病毒层面,基因序列的嵌入便是根据病毒突变的相似性,对病毒进行分组。

该方法的总目标,是识别那些可能帮助病毒逃逸免疫系统、且不降低病毒传染性的突变,也就是说要识别那些改变病毒含义、而又不导致病毒语法错误的突变。为测试模型,研究团队使用评估机器学习模型所做预测的通用度量标准,该标准给精确度打分的区间为 0.5(相当于意外发生的概率)到1(完美)。

研究中,研究人员采用由模型识别、最有可能出现的突变,并在实验室中利用病毒,检查这些突变中有多少确实是会帮助病毒逃逸免疫的突变。精确度分数最低值为针对 HIV 病毒株的预测结果精确度,为 0.69;最高值为针对新冠病毒病毒株的预测结果精确度,为 0.85。研究人员表示,实验结果比其他最先进模型的结果要好。

预先警告

知道可能会有哪些突变,医院和公共卫生当局便更容易提前计划。例如,要模型显示出某种流感病毒的语义自 2020 年以来发生了多大变化,就能预计人们已经产生的抗体在今年会发挥多大作用。

该研究团队表示,正在根据新冠病毒新变种运行模型。针对的新变种包括英国出现的变异病毒、丹麦水貂体内出现的变异病毒、以及南非、新加坡和马来西亚出现的变异病毒。研究人员已经发现,这些变异病毒免疫逃逸潜力可能很高,但尚未在实验室外进行测试。

不过,模型没有预测到南非变异病毒出现的一种变异。人们已经开始担心,这种变异可能帮助病毒躲避疫苗接种,目前研究人员正在尝试探明原因。伯格说:“南非变异病毒里包含多个突变,我们认为,这些突变组合起来产生的效应可能会导致免疫逃逸。”

使用 NLP 可以加速原本缓慢的研究进程,以前是从医院里一名新冠患者身上提取病毒、测序基因组,并在实验室里重新创造和研究相应突变。项目研究人员麻省理工学院生物学家布赖恩·布莱森说,以前的做法可能需要几周时间,NLP 模型可以直接预测潜在突变,实验室研究便找到重点、工作速度也加快。

布莱森说:“整个工作很大开眼界。”每周都有新病毒序列。布莱森说:“一边更新模型,一边跑去实验室进行实验测试,很奇妙。计算生物学好就好在这。”

但这也只是开始。将基因突变视为语义变化,可以在生物学中有不同应用。布莱森说:“一个好类比,能起很大作用。”

例如,希认为研究团队的方法可以应用于研究抗药性。希说,“比如癌细胞蛋白质对化疗产生耐药性、或者细菌蛋白质对抗生素产生耐药性”,这些变异也可以看作是意义上出现变化,“我们解读语言模型,可以有很多创意。”

马达尼说:“我认为,生物学正处在革命边缘。我们不再仅仅收集大量数据,而正在转向学习如何深入理解数据。”

总体来说,研究人员正在关注 NLP 的发展,同时发掘语言和生物学之间的新类比,来利用NLP取得的进步。不过,布莱森、伯格和希都认为,生物学和 NLP 算法交叉可以是双向,即新 NLP 算法受生物学概念启发而诞生。伯格说:“生物学有自己的语言。”