王军:24分钟详解“微生物组数据挖掘”最前沿热点

中国肠道大会是由南京医科大学第二附属医院张发明教授、热心肠生物技术研究院蓝灿辉院长在 4 届“中国整合肠病学学术会议”基础上,共同发起并于 2018 年创立的跨学科、跨专业的大型学术交流平台。

今年 5 月 28-30 日,2021中国肠道大会在南京国际展览中心隆重召开。本届大会设立了 20+ 个学术分会场,邀请包含 13 位两院院士、20 位国外顶尖专家在内的国内外肠道领域学术专家作了 200 余场学术报告。

今天,我们特别整理了中国肠道大会联合发起人、中国科学院微生物所研究员王军老师的开幕式演讲视频及图文实录,以飨读者。

其实,我的报告有一部分内容已经是在前面的报告里面所含括了,但是我还是想从自己自身的研究的角度去跟大家分享一下我对这个领域的思考,发挥我们自己在测序和数据分析方面的优势,去解决关于微生物的很多现在我们特别关心的问题。

大家都知道,我们现在在这个地方开肠道大会,是因为我们对于整个肠道菌群以及其他部分的菌群的作用有了深入的理解,并且对它的重要性也已经得到充分的认识。在这个层面上,我们很多时候是说,我用什么样的方法就可以去解决菌群的问题,或者去诠释这样一个菌群。

大家首先考虑到的肯定是测序。我用 16S 的方法或者是 Shotgun(鸟枪法)的方法,通过二代测序,我可以很快地去了解整个菌群的组成还有功能,并且在不同的疾病状态之下等等都会看到菌群的不同,并且找到一系列标志物。

这个其实就是微生物组在过去 10 多年间快速发展的一个非常重要的驱动因素,就是我们有了新的测序技术,能够产生大量的数据,并且结合很多数据分析方法,尤其是在多元统计这个层面所建立的方法,能够进行后续的一系列科学验证。

Sydney Brenner 先生是已经过世的一个诺贝尔奖获得者,他是线虫模型的建立者,他的一句话就是说:很多时候我们的科学先是有一个技术,然后有数据,我们才会有新的科学问题和新的科学发现。有的时候需要从这个角度或这个顺序去进行研究。

我今天想跟大家分享的这些进展,或者是现在仍然值得我们下大力气去思考、值得下大力气去投资或者是去分析的很多层面,也是我在和很多专家的交流中、在我们自己的项目中思考比较多的东西。

大家知道,现在微生物组仍然是一个发展非常快的领域。在过去的 2020 年,我们有了成千上万篇的关于新冠的文章,里面很多的数据分析也是给了我们新的启示,包括最初的测序数据,包括后期的基因组分析数据,还有我们结合比如说结构生物学、免疫学等等得出的快速开发的很多的抗体、疫苗等等。这些都离不开生物数据的获得、生物数据的积累和生物数据的分析。而我们现在的一系列“洼地”,也是特别值得我们关注并且下大力气去解决的这样一些方向。

第二个大的层面,我也想跟大家说一下,我们自己觉得除了现在要解决的一些洼地、把它们填平或者是把它们垫高以后,我们还可以做的一系列的这种研究的方向。

第一部分就是微生物组的洼地和快速发展领域。

大家知道,我们还是在处在疫情期间。在疫情最开始的时候,包括很多公司,包括我们的 CDC(中国疾病预防控制中心),还有很多的科研单位,都通过快速测序的方法——那时候主要是二代测序的方法,快速地获得了新冠病毒的基因组序列,成功地鉴定了这次病原。这比 2003 年的时候,我们用了 6 个月的时间才真正地鉴定 SARS 的病原,已经是非常大的进步了。

并且,在有基因组序列之后,我们快速地开发了这些核酸的检测手段以及后续的很多抗体等等。现在美国还有德国的这些 mRNA 的疫苗也是在我们获得序列的基础上,才能够快速地发展起来。

但是临床上实际上还有很多的这种感染,包括细菌性的,包括其他病毒性的。新冠只是一个警钟,告诉我们在临床上其实还是有非常严重的感染问题。它和我后面要讲的慢病还有肿瘤等等,实际上是我们现在临床上面临的“三大杀手”。

在感染方面,比如说在下呼吸道感染里,我们的老年人里面每年因为呼吸道的感染而死亡的病例,是在 10 万人里面就有将近 40 个人,而且这个趋势或者是现在这个问题,也是愈演愈烈。

为什么呢?因为抗生素的大量使用产生了越来越多的耐药性基因,并且我们有了一个叫做 ESCAPE,就是 6 种菌所构成的一个非常大的这样一个耐药的网络,基本上现在一线的抗生素都有耐药性了,对于临床的治疗非常麻烦。

但是我们同时回过来去看临床上的这种检测的时候,培养基础上的检测基本上要花三天到一个星期的时间,对于很多临床 ICU 的病人来讲,他是等不了这么长的。每缩短一个小时的检测时间,尤其是针对耐药性和这个病原的检测,我们都能够提高每一个病人差不多 7%的生存率。

所以,快速的检测、快速的识别,尤其对于耐药性的识别和针对性的给药,是临床上现在利用微生物组技术、利用测序技术可以快速解决的一个方向。

大家都知道,在三代测序快速发展的形势之下,包括三代测序还有新的 CRISPR 技术等等都在新冠期间有了新的发展,比如说我们用 Nanopore 技术可以实现病原的快速检测,并且以 SHERLOCK 为代表的 CRISPR 技术也能够用来做新冠检测,可以实现一个 One-Pot 的这种检验。

我们和周宏伟老师等也是利用在二代测序基础上建立起的这种 RNA 测序或者 cDNA 测序的方法,建立这一整套的方法,证明这个 RNA 技术上的或者基础上的这种检测方法,其实比 DNA 的整体的效率更高,并且检出率更高。而且结合三代测序的这种特性,我们可以把时间继续压缩,可以实现非常好的病原和耐药性的检测。

现在我们的文章也是正在投稿中,并且我们也希望在后期能够尽快地推向临床,包括各种临床耐药性的检测和病毒性的检测等等。

除了细菌之外的微生物,我们也其实刚刚开始用新的测序技术去进行很多的这种描述和机理性的研究。

之前于君老师在她的报告里面说到了病毒组和真菌组,这个其实是微生物组领域中一个非常大的洼地。因为我们在很长时间之内——就是在 10 多年的时间之内,我们更多地是关注细菌,是因为它整体的基因组大。

但是从数量上讲,其实病毒——包括噬菌体和感染真核细胞的病毒,它们在肠道和其他环境里面都是要比细菌高出 10 倍的。而真菌又是携带耐药性以及在多种疾病——包括肠道、 呼吸道、皮肤以及生殖道的疾病里面非常重要的这种病原。

并且我们现在有越来越多的证据证明,很多的这些菌群的差异不光表现在细菌上,也表现在病毒组和真菌组的差异上。

去年新冠期间,我们做的一些工作以及黄秀娟老师在 Gastroenterology 上发表的一系列工作就表明,新冠病人的肠道菌群有明显的变化,并且随着疾病的严重程度会有很明显的紊乱。

这种紊乱可以继续延伸到病毒组以及真菌组上,并且在这些细菌和真菌还有病毒中间,存在一个非常强大的、非常紧密的互作网络,整体上对人的免疫状态和治疗等等可能有非常重要的启示。

我们说完了感染,我们现在说一下慢病。

其实除了感染之外,我们现在整体上每年因为疾病的死亡率中,其实很大部分都是因为有心血管疾病,还有代谢性的疾病,还有免疫性的疾病等等。这些和单个菌的关系可能不大,而是一系列的菌的差异和紊乱导致了这些疾病的发生。

但是我们其实在这些层面上需要进一步地跳出来,跳出简简单单的测序的这样一个手段,结合很多代谢组的工作或者是代谢产物这种工作,真正地去把轴给建立起来,把肠道和代谢的轴建立起来。

这里面就特别要介绍姜长涛老师的工作。姜长涛老师在胆汁酸的研究领域做出了非常杰出的贡献,包括针对多囊卵巢综合征。大家可能以为这是一种生殖性的疾病,但是实际上,它也是一个代谢疾病,在这个疾病过程中,胆汁酸的紊乱起了非常重要的作用。

在另外一个方向,在 2 型糖尿病的方向以及其他代谢性疾病方向,姜长涛老师还发现了胆汁酸——尤其是猪胆酸 HCA,可以是作为一个新型的药物来调节代谢,并且改善很多代谢的紊乱。

所以,测序是告诉我们什么可能改变了,然后我们需要结合代谢组找到代谢分子,来找出真正的这种改变。

于君老师之前举例讲了 FMT(粪菌移植)以及针对 PD-1 的治疗,在响应者和不响应者之间存在菌群的这种差异,并且在 FMT 的时候,如果用一个成功者的菌群去移植给一个不成功者或者说不响应者,治疗的响应率是提高的。

但这还是在菌群的层面我们找到了一种现象。我们怎么去解释,怎么去找到这样一个分子,并且用这个分子更精确地去治疗呢?

Science上也发表了一个在小鼠上的实验,就发现了一个分子,叫做 Inosine,其实叫做肌苷。肌苷是一个调节 B 细胞的物质,在小鼠里面使用之后可以很明显地上调 PD-1 的治疗效果,对于我们以后的临床治疗具有非常明确的指示意义。

我们还能够在肠道菌群和感染的领域继续地去深入挖掘很多这种代谢产物,明确它们的作用。这些代谢产物使我们有了一个不使用活菌,或者不使用这种整体的菌群移植,从而干预感染的治疗或者提高治疗效率的这样一个手段。

我们看到有一篇 Cell 的报道,是今年的一项非常有意思的工作。就是说一个小鼠如果感染了一次的细菌,然后它第二次的时候就不容易感染了。我们一般情况下认为,这是有一个后天免疫的作用在里面。但实际上,肠道菌群也发挥了非常重要的作用,尤其是在感染之后,它产生更多的牛磺酸这种物质。这种牛磺酸是一种杀菌的物质,并且可以针对性地杀灭一系列的条件致病菌。所以它在第一次感染之后,通过菌群的改变可以实现对胆汁酸的调节,然后避免第二次感染的发生。

在之前的针对流感的这些研究里面也有专门的报道,比如说肠道菌群可以产生一些脱氨基的氨基酸,然后上调整个肺部对于流感的抵御,以及提高 GM-CSF 这样一系列的细胞因子的量,然后抵御更多的这种病原的侵染。

在菌群和药物的互作以及治疗的影响上,我们今天这里很多人是关注比如说用药的治疗,尤其是中医药治疗。

我们知道很多的药物其实口服是最方便的,但是口服的这些药物在肠道里面是怎么被代谢的?又怎么会影响菌群?这个领域也是一个非常新的领域,并且最近的一系列的非常好的成果也是不断涌现出来。

这里面特别要介绍吴浩老师和 Fredrik B?ckhed 已经发表的一系列研究,揭示了 Metformin 二甲双胍治疗糖尿病和代谢性疾病中菌群的变化。

中药里面也有一个类似的东西,叫做小檗碱,就是黄连素。黄连素必须通过菌群代谢才能够入血,然后再发挥作用。在这个层面上,它在糖尿病的治疗中已经被广泛使用,包括上海的宁光院士,还有北京的仝小林院士,都做了相关的研究。仝小林院士和我们一起合作,在中药的复方中也鉴定了小檗碱其实是发挥了非常重要的、核心的降糖作用。而这个降糖的作用实际上是通过调节肠道菌群,然后促进产丁酸菌的上升来实现的。

在其他的中药的分子层面,包括赖信志老师,包括我们所的刘宏伟老师,也做了非常多的这种工作,证明了中药的有效成分对于肠道菌群的调节作用是非常核心的。

还有一些其他的,比如说氨甲蝶呤这种治疗自免疫性疾病的药,其实也都是与肠道菌群有关。

更系统的是在Nature的 2016 年到 2018 年期间有系列的报道,发现其实在临床上用的一千多种常见的药物里面,有一半以上其实是有抗生素的活性的,虽然我们不把它当抗生素用。大家可以知道或者想象到,我们平常的用药其实有多不小心,尤其是没有考虑到对肠道菌群的影响,以及菌群对药物的代谢。

在新的测序技术蓬勃发展的今天,我们正在打开另一扇门,就是微生物的表观遗传和宿主互作。

大家知道,人的表观遗传是一个非常热的领域,有 5mC 之类的甲基化修饰能够快速地被检测,并且和各种性状有关。

微生物里面的表观遗传,因为它的高通量检测问题,我们最近才开始看到报道,对它的重要性进行很好的阐述。在这个方向,房刚老师做出了一系列工作,利用 PacBio 和 Nanopore 进行了多种菌的组装。

一方面,甲基化可以指导我们的组装;另一方面,其实也能够看到很多菌,比如说艰难梭菌里面,甲基化的模式的不同会影响它的毒力。

甚至甲基化的作用可以拓展到病毒方向。

我们知道,流感是非常常见的病毒,它的甲基化在 80 年代就知道了。但是直到 2017 年,我们才有报道说它的甲基化在侵染过程中发挥非常重要的作用。

对于其他的这些病毒,比如说呼吸道合胞病毒 RSV,还有 HIV 这些病毒的这种 RNA 上的甲基化,我们现在才明确,它们确实有非常重要的、明确的生理意义。但是对于它们的研究还需要进一步地展开。

第二部分,就是我们自己对数据挖掘还有利用方向的一系列的思考,有些地方不是特别的成熟,只是供大家参考、讨论。

我们知道,现在临床上的数据多了,微生物组的数据多了。我们其实不光是要有一个描述,我们还可以进行临床的检测和干预。尤其是在干预的层面,对于一些饮食性的干预,或者是这种定量的、比较科学的菌群的搭配,可能对于我们很多疾病的治疗具有非常重要的意义。

例如 Personalized Nutrition Project,它就是用机器学习的办法,指出每个人用不同的饮食或者吃不同饮食之后,他的血糖变化会怎么样。在这个基础上,我们可以对糖尿病或者糖尿病前期的病人进行更好的饮食调节。

在这个过程中,我们就需要菌群的数据以及很多实验的数据,微生物很有可能提高我们对于疾病检测的准确率还有它的阳性率。

我们在大流行病的这种背景之下,其实不光要考虑到病原的基因组、病原的测序数据,我们还要考虑到人的数据,考虑到移动的数据,考虑到其他的数据。

Google Flu 就是一个非常好的例子。它和美国 CDC 的数据的匹配程度在之前是非常惊人的。它是怎么着?就看谁在搜索感冒药或者感冒的症状,然后提前三四天我就可以知道下一个流感大流行或者地域性的爆发在什么地方。

我们去年的新冠期间,通过大数据,包括我们现在的行程码、健康码,对于追踪病例、对于疾病防控都有非常好的指示意义。并且,我们现在利用机器学习,还有其他这种大数据,还可以进行很多的这种病毒的溯源工作和未来这种预期工作。

比如说,我们现在知道有所谓的 Indian Variant——这种印度的突变株。它报道只有一个突变株而已,但那么大一个人群,那么大的病毒载量,是不是有些突变株已经能够脱离开 PCR 这种检测了?或者是,我们现在的疫苗的效率已经开始降低了?我们现在都不知道,需要很多这种模拟,需要很多数据的监测,才能够真正的实现。

我们慢慢地就开始脱离开微生物组,下一步就要考虑,或者下一步想要通过数据去推动的,就是这种新的蛋白的理解。

比如说,天然界存在的蛋白数量其实是非常大的。对于绝大多数的蛋白,我们对它的结构是不知道的。但是结构和功能是紧密相关的,这也就是为什么结构生物学这么重要。

我们知道去年有一个非常大的进展,就是 AlphaFold2。这是一个非常新的工具,可以实现 80%以上的蛋白质预测的准确率。它的成功秘诀之一,其实就是引入了大量宏基因组的数据。

因为我们针对一个新的蛋白,需要对它的结构进行同源建模的时候,如果有很多蛋白的结构或者很多蛋白家族不在这里面,我们就没法预测。但在 AlphaFold2 的研发过程中引入了大量宏基因组数据,包括 David Baker 实验室自己的 Rosseta 也引入了大量宏基因组数据,用这些数据驱动了对很多未知的蛋白家族的预测,提高了准确率。

我们很多微生物的酶也是重要的宝藏。在这些酶里面,我们不光可以进行它的一些定量的突变或者改造,我们还可以实现利用人工智能的方法,去把一些酶的位点或者关键部位,进行整合或者改造。

这个地方要特别提到我们微生物所的吴边老师。他的团队在最近几年做出了非常优秀的工作,就是实现了利用天然界存在的酶,然后进行人工的计算机的改造还有融合,实现了在常温之下就可以进行塑料的降解,以及其他一些功能的实现。

所以,包括蛋白的新的设计、这种结构的认知,以及对酶的改造,尤其是微生物酶的改造,将对我们未来的生活还有医疗等等产生不可估量的影响。

最后,继续推动人工智能的发展,推动它在微生物组里面的应用,对很多的临床的治疗也可能具有非常重要的意义,尤其是在 AI 可以挖药甚至做药的今天。

我们知道 AI 的技术,尤其是神经网络,之前对于图像的这种识别,已经在临床上得到了广泛的应用。现在我们把这些分子改变成图像,就可以进行很多这种分子模拟、分子对接以及新的抗生素的挖掘。

比如说Cell在 2020 年的时候就发表了一篇关于 Halicin 的工作。Halicin 是一个被抛弃的药,之前就已经停留在研发阶段了,但是通过 AI 的重新发掘,他们发现这个药物很有可能是一个抗生素,并且拿出来之后,发现它对多重耐药的革兰氏阴性菌具有非常好的抑制作用。

这是差不多 40 年以来发现的、为数不多的对革兰氏阴性菌有明确抑制作用的这样一个新分子,而它的发现完全是由于 AI 能够识别分子里面这种潜在的性质。

在前面的报告里面,我跟大家分享了很多自己的一些思考和对这个领域的一些总结。最后,也简短地介绍一下我们课题组现在在做的三个方向的工作。

在上游,我们利用新的测序技术,实现微生物组的很多的深度的检测,包括刚才已经说过的 RNA 层面这种临床的检测。

在人类宏基因组的研究方向,我们现在有几百人的三代数据,然后在里面可以进行非常深度的挖掘,包括结构变异、甲基化、噬菌体等方向的挖掘。并且,我们能够证明,这些深度的结构变异,还有深度的这些基因变异,对于它的生理功能和代谢等等具有非常重要的影响。

在这里面给大家做一个广告,就是我们研究组自己建立了从 Flongle 到 MinION 再到 PromethION,这样一个完整的三代测序平台,现在已经实现了正常运行。欢迎大家对三代测序尤其是微生物组方向的应用有需求的话,可以和我们研究组合作。

我们在中游方向就和很多临床的大夫合作,去解析各种疾病里面的这些微生物组的作用成分,以及它的新作用靶点。

刚才已经提到的,我们和仝小林老师做过中药的一个复方的研究。我们就在这中药复方里面鉴定了小檗碱作为主要的作用成分,并且在动物层面能够证明,它发挥绝大部分的这种改变菌群的作用,并且降糖、降脂。

我们和协和医院的张烜老师一起合作的工作,是在自身免疫症——狼疮方向,我们发现了肠道菌群的这种模拟表位。就是肠道菌群产生一系列蛋白,然后这些蛋白模拟我们自己的蛋白序列,从而引发自身免疫抗体的产生。也在一定程度上解释了微生物组的一个致病的因素。

然后我们自己下游的方向,其实是在做 AI 的生物分子的挖掘。

在之前的一篇 Cell 文章里面指出,我们对于肠道菌群和微生物组里面的这些蛋白的多样性,是严重低估的。现在我们是用 AI 的方法,去逐渐挖掘里面的一系列的蛋白,还有一系列的其他的可编码的分子,并且把它们的生理功能很好地阐释出来,希望能够进入临床的应用阶段。

这个就是我对我们这个领域以及对我们自己研究组的一个期盼。

尤其是第一个——尽量不要破产。因为我们自己的研究方向现在有很多,整个行业面也很广,我们也希望有更多的合作。

然后在上游方面,我们建立新的技术,用新的组学去解决很多的问题;在中游层面,去解释疾病的机理和发掘新的靶点;最后一个层面,我们希望慢慢地实现从挖掘微生物的现有分子转向更大的分子设计,发现更多的可以利用的成分。

好的,我的报告就到这里,非常感谢我们的合作伙伴、我们的支援的团队以及很多的基金的支持。

谢谢大家!