颜宁等点评:AI精准预测蛋白质结构,结构生物学何去何从?

12月1日,谷歌旗下的DeepMind公司宣布,其新一代AlphaFold人工智能系统在国际蛋白质结构预测竞赛(CASP)上击败了其余的参会选手,精确预测了蛋白质的三维结构,准确性可与冷冻电子显微镜(cryo-EM)、核磁共振或 X 射线晶体学等实验技术相媲美。(详见《解决生物学50年来的重大挑战!生物界“AlphaGo”精准预测蛋白质结构》)这一消息引发了全球媒体关注,前Genentech首席执行官Arthur D. Levinson博士盛赞这一成就是“划时代的进步”。人工智能的“进击”对生物学、对其他学科会有什么影响?网络上有人提出:AI都能解蛋白质结构了,结构生物学家是不是该失业了?《返朴》总编、结构生物学家颜宁特邀几位同仁对这一新闻各抒己见, 回答大家的疑问。

by Asier Sanz | https://asiersanz.com/

AlphaFold2是个大突破,但我们还有努力的方向

张阳

(ITASSER创造者,美国密歇根大学教授)

AlphaFold2显然是蛋白质结构预测领域的重大突破。这可能是从1969年第一篇 Journal of Molecular Biology用比较建模方法预测蛋白质结构发表51年以来最大 的突破。这个领域过去20年来,进展一直比较缓慢。但是最近几年,随着共同进化 接触图预测以及引入深度学习之后,很多软件,比如I-TASSER和Rosetta等都有了 很大进步。就I-TASSER来讲,两年前在CASP13的时候,它能够正确预测非同源蛋白 的数目比其六年前在CASP11上提高了5倍。这次CASP14也比CASP13的预测能力提高 了很多。但是AlphaFold2这次比上次进步更大,和CASP13的AlphaFold相比,AlphaFold2的主要变化是直接训练蛋白质结构的原子坐标,而不是用以往常用的简 化了的原子间距或者接触图。传统上,蛋白质结构预测可以分成基于模板和从头预 测,但是AlphaFold2只用同一种方法--机器学习,对几乎所有的蛋白质都预测出了 正确的拓扑学的结构,其中有大约2/3的蛋白质精度达到了结构生物学实验的测量 精度。说他们接近解决了这个问题,这个说法没错,至少是在单结构域的蛋白结构 来讲是这样的。

谷歌这次为什么能够取得如此大的成功?这个首先是与它们拥有强大的人力和计算 资源有关。计算机上,他们使用TPU(据他们的宣传是比GPU快15倍),学术界的实 验室只有CPU或者GPU,而很多实验室都还没有GPU。他们对媒体在宣传中说 Alphafold2最后只用相当于100个GPU的资源训练了两周产生了最后的模型,学界大 多数实验室都可以做到,这是不客观的。因为产生一个新的想法,到训练成功的模 型,中间起码要反复测试重复100次甚至1000次。这就像吃了十个馒头的饿汉一 样,不能说吃了最后一个馒头吃饱了,就觉得只吃最后一个馒头就够了。另外,他 们可以高薪招聘大量专业人才,集中精力攻关一件事,不需要担心基金申请,教 学,和学生毕业论文等等。这些人力和计算资源上的差别是谷歌DeepMind这样的工 业研究机构同学术界在攻关科学或者工程问题上的最大优势。当然,学术界在蛋白 质结构预测这么多年的积累,也给AlphaFold2的成功奠定了基础。

其实,我自己很高兴他们取得了这么大突破。这个工作首先证明了蛋白质结构预测 问题是可以被解决的。这其实不是一个简单的问题,因为蛋白质结构和序列的复杂 关系,常常让人们特别是做结构预测的人怀疑,蛋白质折叠这个问题是不是可解, 或者是有唯一解。我们在15年前的一篇PNAS论文中提到用PDB库中的模板在理论上 可以解决单结构域蛋白质结构预测这个问题,但是那是一个基于模板的传统解法, 难点是如何找到最好的模板。谷歌他们这次用“暴力”的机器学习,“暴力”的解决了 这个问题。这个成功对很多相关领域都会产生深远影响。有人说这个AlphaFold2会 让很多相关行业的人失业。我认为恰恰相反,它给很多领域提供了解决问题的新途 径和新思维,因而会极大推动相关领域的发展,因此,会产生更多更大的机会。即 使对于蛋白质结构预测这个相对较小的领域来讲,我们还有很多事情要做。 AlphaFold2这次只有2/3的蛋白做到实验精度,还有1/3做不到,是否还有更快更好 的途径来产生更高精度结构的算法?基于商业或其它考虑,我相信谷歌可能不会公 开代码或Server。所以,最终可能还得学术界的同行共同努力,完善和推广这一技 术,让其真正受惠于生物医学研究以及普通公众的健康需求。

共赢大于竞争

龚新奇

(中国人民大学数学科学研究院教授,清华大学北京结构生物学高精尖中心合作研究员)

2020年第14届国际蛋白质结构预测竞赛(CASP14)共有84个常规(Regular)题目,其中有14个题目因为生物实验没给出确定结构等原因被取消或延缓,其他70个题目的单体和复合物蛋白质所含有的氨基酸个数从73到2180不等。

19个国家的215个小组参加了CASP14。最终,谷歌旗下DeepMind公司的人工智能系统AlphaFold2在2018年的Alphafold基础上迭代创新,超常发挥,一枝独秀,基本解决了“从氨基酸序列预测蛋白质结构”这个困扰人类50年的生物学第二遗传密码问题。

AlphaFold2的成功表现在三个方面:

不少结构的预测精确度跟实验晶体结构相当,可以替代晶体结构;

一些含有多个结构域的复杂超长的单链结构也达到了可以跟实验结构比较的程度;

帮助解析了竞赛中涉及到的、实验多年没拿到的X射线晶体和cryo-EM冷冻电镜结构,比如T1058的膜蛋白是用了Alphafold2的预测模型之后,才跟原有晶体学数据综合成功解析了结构。

AlphaFold2团队的John Jumper报告表明,他们使用了基于注意机制的神经网络,动态调整网络中节点的顺序和链接;依靠的是端到端的优化整体构建结构,而不是氨基酸距离;网络中内置了大量的序列、结构和宏基因组等多重比较信息;还依赖分子模拟软件优化去掉了原子的堆积碰撞。

在AlphaFold2的摘要作者名单里,交叉团队的30位作者中有19位都被标记为相同贡献的第一作者。他们将近8分钟的宣介视频,记录了团队成员在新冠疫情期间精诚合作、攻坚克难的宝贵场景。

CASP组织者John Moult指出,计算下一步还有更困难的问题要解决:超大复合物结构、动态构象变化、蛋白质设计、药物设计等等。

除了我们蛋白质结构预测小同行对AlphaFold2的成功很欣喜之外,社会上还有多个不同方向的学术界、产业界和新闻界对它寄予了厚望。

在欣喜的同时,蛋白质结构预测小同行也有一些保留意见:

工程化明显,依赖于强大的GPU计算资源和代码优化团队;

谷歌公司几乎可以收集全球所有网络信息,虽然看起来AlphaFold2的自动化程度很高,但他们在人工操作中使用了哪些信息值得关注;

预测对了结构,但不等于明白了蛋白质折叠过程和原理。

生物实验科学家也有不少看法:

算出结构只是生物学规律发现的第一步;

计算的多个models中,有时打分排序不准;

开放AlphaFold2的server之后,使用效果不一定那么好;

只是在已有蛋白质结构数据集上训练得到的模型,尚不能计算其它构象或其它类别的分子结构。

还有关心这个领域的其他方向的专家也提出了问题:怎么理解这个算法成功的原理?怎么跟原有的热力学、物理学等基本原理相融相通?

我认为AlphaFold2是个大突破,后续可能性很多,会替代一些简单的结构生物学实验,但对当下科学家追求的前沿生物学来说,共赢大于竞争;对生物学、数学和计算机学等学科而言,则会带来新的机遇。

技术服务于科学探索,结构生物学早就进入新时代

颜宁

(美国普林斯顿大学雪莉·蒂尔曼终身讲席教授,美国科学院外籍院士)

首先,简单说一下,什么是生物学里的“结构”。用个不太恰当的类比:变形金刚。比如擎天柱是辆车还是个机器人,这就是不同的结构了,机器人能打架大车做运输,功能也不一样。而不同的汽车人组成成分可能差不多,都有合金、玻璃、橡胶,但是形态各异,特长也不一样。生物分子的组成成分和基本单元就那么几种,但是组装起来,不同的序列不同的结构,于是功能各异、五花八门。这个结构不是静止的,每一个生物大分子基本都像个小机器,比变形金刚更复杂、更变化多端。

因为结构决定了生物大分子的功能,所以解析高分辨率结构在过去几十年一直是理解生物大分子工作机理最有力的工具。但是一直以来,因为技术局限,对于绝大多数生物大分子的结构解析困难重重。所以,一批科学家另辟蹊径,试图在已有的知识基础上,绕开劳心劳力又劳财的实验步骤,从蛋白质的序列直接通过计算预测出它们精准的三维结构。

蛋白结构预测并不是一个新鲜学科,一直以来就是结构生物学的一个分支,很多科学家不断开发算法,希望根据序列预测出来的结构越来越准确。这个领域在过去十几年进步迅速,并且与实验结构生物学融合度越来越高。比如,自从进入电镜时代,看到一堆黑白灰的密度,如果其中某些部分没有同源结构,通过软件预测一个大致的结构模型,放到密度图里面做框架,再根据实验数据调整,已经是个常规操作。

这次人工智能赢得CASP的新闻亮点有两个,一是AI,二是准确度高。这确实是突破,但是有了两年前的新闻(注:2018年,DeepMind开发的第一代AlphaFold首次参加CASP并且拔得头筹)做铺垫,现在这次委实是意料之中。

至于衍生出来的所谓“结构生物学家都要失业了”的调侃——如果你对结构生物学的理解还停留在20年前,那这么说也不是不行。但是结构生物学自身一直在发展着,一场冷冻电镜的分辨率革命更是令结构生物学不同往日了。我在2015年主持一个学术研讨会的时候曾经评论过:结构生物学的主语是生物学,是理解生命、是做出生物学发现。但是,在X-射线晶体学为主要手段的时代,获得大多数研究对象的结构本身太难了,于是很多研究者把“获得结构”本身作为了目标,让外行误以为结构生物学就是解结构。但我从进入这个领域之初,就被教育得明明白白:结构本身只是手段,它们是为了回答问题、做出发现。而电镜使得“发现”二字尤为突出。

看到结构本身、知道你的研究对象长啥样,倒也可以称之为发现,但我刚刚说的“发现”,特指那些超乎想象的、通过结构才揭示出来的、自然界里神奇的存在或者令人叹为观止的机理。我讲课最喜欢举的例子之一就是施一公组的剪接体结构。为啥呢?因为它集合了结构生物学发现里几乎所有的精彩要素和挑战。

第一,在剪接体结构出来之前,有很多剪接体的组分甚至是未知的。不同于传统的结构生物学,先知道你要研究对象是啥,再吭哧吭哧地去把它们的结构解出来——剪接体的电镜分析是看到了密度图之后,完全不晓得这是啥,需要通过质谱等手段去鉴定组分。我从2015年就预测:电镜与质谱组合,将会变成一个重要的生物学研究发现手段。在电镜时代,这样的例子越来越多。比如清华大学隋森芳老师组的那个巨大的藻胆体结构,靠质谱都不够了。为了搞明白组分,他们甚至先做了基因组测序。

第二,几十上百个蛋白如何众星捧月地把那么几条貌似简单的RNA掰成与几个小小的金属离子配合的核酶反应中心,在茫茫碱基中,在正确的时间正确的地点牵线搭桥,剪掉intron(内含子),连接exon(外显子)?就为了这一“剪子”一“钩针”,为了几毫秒的过程,这么个庞然大物的几十上百个组成部件却要分分合合,这个过程是真神奇。

施一公实验室报道的首个酵母剪接体的结构(图源:生物化学经典教材Lehninger Principles of Biochemistry(第七版)封面)

结构生物学目前的实验手段只能获得静止的3D照片,为了揭示这部电影,就要不断获得中间态的3D照片,帧数越多,电影越精准。但即便如此,这个过程中的动力学问题,简单说,就是变化速度,依旧不是现在的结构生物学实验手段可以揭示的,需要借助更多生物物理技术、计算生物学手段去探索。

我自己的工作虽然没有剪接体那么酷炫,但是电压门控钠离子通道如何感受膜电势的变化,开门关门,就这么个过程,听着简单,我们死磕三年了,依旧束手无策。另外,我们今年发的两篇PNAS论文其实代表了结构生物学的另一个努力方向:在实验操作过程中对生物大分子施加外力(电场、磁场、各种长度的波......)。

也许是受到我自身专业领域的局限,AlphaFold迄今带给我的震撼还赶不上冷冻电镜的革命,后者将我们从技术挣扎中解放出来,可以专注于结构带来的生物学发现本身。

AlphaFold目前最成功的预测是针对单链分子,当然将来预测复合物的高精结构也应该不在话下。相比于对蛋白折叠的贡献,我倒是更希望AI能够助力Molecular Dynamics Simulation(分子动力学模拟)。对结构生物学而言,这个领域才是亟需进步的。

我个人认为生命是地球上最神奇的存在,那么多未知要探索,任何一次技术进步都是契机。该考虑的是如何把新技术为我所用,去问出、去探索更有意思的问题。

最后,当AI能够成功预测我们正在孜孜以求的生物大分子动态、原位高分辨率结构的时候,那失业的一定不止是结构生物学家、或者生物学家了 :p

各抒己见

根据现在披露的结果,AlphaFold2已经基本达到实验解析结构的精度。前天AlphaFold2团队的报告展示了新冠病毒SARS-COV-2的预测结果,说明RNA聚合酶这么大的蛋白也能基本预测准确。理论上,这会对结构生物学有很大冲击,尤其是以后单颗粒cryo-EM的实验方法上,是否还需要把分辨率做得那么高?低分辨率的电子密度图,甚至SAXS数据结合预测结果应该就能解决问题了。

但是,现实中的冲击不会那么大。这是因为,AlphaFold2模型的创新性非常高,其中结合的2D transformer和3D equivariant transformer都是AI领域的前沿技术,模型的训练难度很大。DeepMind的训练方法在学术界很难复现,估计学术界要花几年的时间才能跟上,因此短期内AlphaFold2对结构生物学的影响会比较有限。DeepMind可能会和个别实验室合作,预测蛋白质结构。

——龚海鹏(计算生物学家,清华大学结构生物学高精尖创新中心研究员)

AlphaFold为结构生物学家提供了除晶体学、冷冻电镜、NMR以外的另外一种手段,用于揭示生物大分子发挥作用的分子机制。

——张鹏(结构生物学家,主要利用晶体学和冷冻电镜技术;中科院分子植物科学卓越创新中心研究员)

AlphaFold目前还不能预测复杂的分子机器,主要是因为蛋白-蛋白相互作用非常复杂,存在极多的可能性。实验手段所揭示出来的蛋白-蛋白相互作用方式还只是冰山一角,更何况在不同生理条件和过程中的结构变化。因此,未来对有特定功能的、多个成分组成的、生物大分子复合体的结构解析,以及体内的结构分析,将成为结构生物学实验研究的主要内容。无论有没有AlphaFold,结构生物学也正在朝这个方向发展。

Rosetta(注:从头蛋白结构建模算法)也好,AI也罢,结构预测都是基于已有的实验数据够大。没有足够的数据积累,这些基于统计和数据库的预测就无法实现。完全基于物理学和化学第一性原理的结构预测还没有出现。

实验科学永远是探索未知的必要手段。新的软件算法应该是成为实验科学家的更有力工具,而不是取代实验科学。

——王宏伟(cryo-EM专家,清华大学结构生物学高精尖创新中心执行主任,清华大学生命科学学院院长)

最近两年,结构生物学领域经历了与围棋界类似的故事。Alphago Fan版本时围棋界并不认为它能够战胜人类顶尖高手,可是Alphago Lee后整个围棋界甘拜下风,并且转向AI拜师学艺。2018年Alphafold出现时,实验结构生物学领域认为被战胜的仅仅是传统的结构预测领域,2020年Alphafold2之后,实验结构生物学领域应该开始思考如何与之共存以及如何“拜师学艺”了。目前阶段人工智能在围棋上已经远远超过人类顶尖棋手,但是人类围棋比赛并未因此取消,如同汽车发明后奥林匹克仍然在进行田径比赛一样。原因之一是人工智能虽然超越了人类,但并未解决围棋的最终解。同样的道理,对于复杂的结构生物学问题,预测手段本身还不能号称完全解决了问题。实验结构生物学领域接下来需要做的一个事情是要拥抱变化,更好地与预测方法结合以及共同发展。

——周强(cryo-EM专家,西湖大学生命科学学院特聘研究员)

蛋白质体系越大,结构的解析越难仅依赖计算方法。Cryo-ET (冷冻电镜断层成像) 技术擅长解析体外难表达的大分子机器结构、细胞中的原位蛋白结构等复杂体系,因此很难被脱离实验手段的方法取代。目前,由于体系过于复杂,使用分子动力学模拟整颗病毒尚未实现,要模拟细菌、细胞、组织,还要很长的路要走。

——李赛(Cryo-ET专家,清华大学结构生物学高精尖创新中心研究员)

撰文 | 龚海鹏、龚新奇、李赛、王宏伟、颜宁、张鹏、张阳、周强