倒数第二个测序技术革命—Nanopore很快会占半壁江山?

编者按:
       本文是希望组 & 未来组首席技术官吴昕博士在2019年5月5日于中国肠道产业大会演讲的图文实录,今天我们特别分享给大家。
       以下是图文实录内容:

前面听了很多测序公司的介绍,我们目前应该是世界上最大的 Nanopore 的产数据的公司。

我先自我介绍一下,我叫吴昕,是今年二月底应我们 CEO 汪德鹏先生邀请回国加入未来组和希望组。

我先简单介绍一下我们公司的背景,汪德鹏先生是从华大出来创业的,看准了三代测序这个细分市场,实际上还是蛮有远见的,因为我们公司成立于2011年,2013年3月11号正式提供三代测序服务,6年前那个时候市场对三代测序还是有很多质疑的,那时候是二代测序 illumina 的天下,对吧?

我们是2013年3月11日武汉未来组,看右边这个图片,当时全职员工也就十来个。汪总有一个理念,我们必须有足够远见能够看到技术发展的趋势,然后投入所有的精力来做。

2012年底,我们发现了一篇关于Allpaths-LG 的论文,Allpaths-LG这个软件和方案启动了二代和三代混合测序的策略,进行完整的细菌基因组拼接的一个时代 。

道理非常简单。三代测序的读长非常长,能跨越很多很长的区域,包括一些重复区。配合二代的纠错,能够达到一个比较好的细菌基因组拼接结果。

看一下上面图中,2013年3月11号,PacBio 当时股价一美金多,那是三代测序很困难的时候。那个时候三代测序唯一的代表就是 PacBio,大家都不太看好三代测序,包括资本市场。

这个时候我们做出了一个从现在看来是非常有魄力的决定,就是把我们整个的资本和资源都投入了三代测序里面。

一年后的2014年,我们意识到,除了在动植物基因组之外,关于人和健康的这个领域,三代测序也有很大的空间可以去做。然后汪德鹏先生和王凯先生(现在在费城儿童医院做教授)一起又创立了希望组。

希望组这个名字是源自霍金的一本书,叫《The Grand Design》,这本书是讲宇宙是怎么样起源。公司名就借用了书名的前缀,叫 GrandOmics,就是我们希望对宇宙的理解,首先从对人的理解开始。

希望组是坐落在北京中关村生命科学园,主要是专注于精准医学和人类健康相关的长测序服务。

刚才在第四会场有一个 PacBio 的技术报告,提到了我们是第一个用 PacBio 三代测序技术来建立一个中国人参考基因组的公司。

在这个工作中,我们发现了超过两万多个大于1Kb左右的结构变异。实际上,人类疾病很大一部分的是源于结构变异,但是这个结构变异通过二代测序是很难看到的。

特别是在平衡易位,因为我们的基因容量是一样的,而且我们知道二代测序很多时候看拷贝数变化是通过 gaps(缝隙),通过 cover(覆盖)来看的,实际上这是没有办法的办法。三代测序你可以直接读过去,这是最好的办法。

当时用的 PacBio 平台依旧是非常非常的贵。因为我们知道,测序仪这个系统,从大类上分为两种:

一种是基于光学信号捕获的,它是需要镜头,本身照相系统就便宜不了,而且这个照相系统是很难小型化的。

另外一种是基于集成电路和电信号的,大家应该知道,基于硅的电信号系统是有摩尔定律的,它的成本是能够控制的,而且通量是有大幅度提升的空间。

2017年,我们已经成为全球最大的三代测序中心和世界第一家三代测序遗传病诊断公司,因为我们已经积累了四年多,主要是 GrandOmics 在临床方面的应用。

我们的测序中心平米数也很大,在北京大概2300多平米,在武汉4500多平米,我们也得到了 SMART Sequencing Center(SMART 测序中心)在遗传病诊断领域的认证。

2017年9月,我们成为 Nanopore 首家中国测序应用公司。2017年4月5号,我们在伦敦购买了 MiniIONs,应该是中国最早一批测试 MinilONs 的公司。2017年9月,我们又购买了3台 GridlONs。我们现在共有20台 GridlONs,3台 PromethIONs 和两台 MinilONs。我们也是 Nanopore 的认证服务机构。

给大家分享几个案例。

第一个案例是基于三代测序来做诊断,所有样本都是采用的 NGS(Next Generation Sequencing,二代测序)看不到的阴性样本,但是我们的合作伙伴相信可能会有漏检的情况,就把这些疑难杂症发给我们来做。

这是个糖原累积病 la 型,这个病应该是一个隐性疾病,送来的样本我们通过二代测序只发现一条染色体上有一个点突变。通过三代测序,大家看右边这个图,我们发现了一个7Kb左右的大片段的 deletion(缺失)。

而且特别凑巧这个 deletion(缺失)它两边的断点是位于Alu这个元素区域里面,大家知道Alu有很多这样 transposon(转座子),它来回来回地跳,而且有很多的重复性。

所以这断点落在 Alu 区域呢,就导致二代测序根本就看不到这个位置,实际上这是一种杂合隐性,确实两条染色体都有问题,但有问题的方式不一样,有一个是点突变,有一个是大片段的缺失,所以导致这个样本会被漏检。

这个发现其实蛮鼓舞我们,实际上我们能够通过三代测序的方式,把一些二代测序漏捡的样例能够捡起来重新检测。

另外一个案例是2018年9月份的,这个案例是跟湘雅医院唐北沙老师团队一块儿合作的。这个疾病叫 FCMTE(Familial Cortical Myoclonic Tremor with Epilepsy,家族性皮质肌阵挛性震颤伴癫痫),是神经相关的一种癫痫。

这个病的致病基因已经被日本人首先发现了,这个基因叫 SAMD12,里面有一个5个碱基的 STR(Short Tandem Repeat,短串联重复序列),在正常人基因组里面应该是3到12个拷贝左右。

在这个案例中,我们从患者的 SAMD12 基因里面发现,STR 能够高度扩张,达到100甚至上千的重复数。

我们看到这个病患是有一个3.7Kb左右的 insertion(插入)在他的一条染色体上,达到了几百的 duplication(重复)。

图中,上面的图是用 PacBio 做的,下面的图是我们用 Nanopore 做的,所以这也证明了三代测序在这个短重复片段的应用是靠谱的。

而这个短重复片段这五个碱基还比较复杂,五个碱基并不是完全一致,中间还有一个地方突变。这篇文章是在去年九月份发表了。

第三个案例是关于平衡易位的案例。平衡易位最早是通过核型检验和原位荧光杂交的方法来看,但这种方法的分辨率非常非常的低。

所以我们看能否用三代测序在平衡易位上面去做文章,因为平衡易位实际上基因数量是没有改变的,所以它跟 insertion(插入)、deletion(缺失)是不一样的,这种情况二代测序是非常难抓到信号。

我们知道,平衡易位在整个人群中的占比大概是0.2%左右,但是在不孕不育患者、人工受精失败、习惯性流产这样的案例里面,可能有2.2%左右的原因是可以归结在平衡易位上面。

看这个案例,我们用 Nanopore 长读长技术成功抓到了平衡易位。图上左下角有两个染色体,实际上在这两个位置上发生了平衡易位,不但从一个染色体跳到了另外一个染色体,而且还有一个反转。

这个案例就给了我们充足的信心,我们能够通过三代测序成功抓到染色体的平衡易位的断点信息。这个信息是非常重要的,因为能够应用到产前诊断方面,特别是体外授精业务。

基于我们以前的经验,我们发现人类疾病特别是遗传疾病,非常多的原因是结构变异造成的,因此我们在2018年4月发起了华夏万人基因组计划。

我们的目标是在三年内针对不少于10万个中国人个体进行全基因组三代测序,充分的了解正常人的结构变异的背景,以及疾病人群的结构变异的背景,包括大片段插入、缺失、复制、倒位,易位以及短串联重复等遗传变异图谱。

通过这些变异分析,为复杂的病症和疾病提供一个更大规模的测序通量,希望能够在临床领域帮助疾病的诊断和治疗。

另外一点,三代测序比二代测序好的一个方面就是,在测序同时可以把甲基化做出来。我们知道在肿瘤里面,已经发现很多甲基化的模式是跟细胞分化以及增殖密切相关的,实际上它是一种调控机制。在肿瘤方面,这个调控机制扮演了一个重要角色,特别是启动子上游的增强子。

曾经有篇文章报道过一个很有意思的案例,研究发现一种增强子劫持的模式。

我们知道结构变异会导致致癌基因跳到其他基因的上游,特别有意思的是原癌基因跳的时候,有时候会带着上游很远的一个增强子过去,还会发生自激现象,因为本身启动子会和它的转录因子结合,就变成细胞的恶性增殖。

这些实际上在应用二代测序是难以看到的,但是用三代测序我们会发现肿瘤里面有这样一个模式。

我们现在已经测了1000个中国人的全基因组测序,我们希望到明年底能完成3万个,第三个阶段到2021年,能够完成7万到10万个左右的数据采集。

前不久,我们跟 Oxford Nanopore 达成战略联盟。我们认为,人类基因组结构变异数据的采集和分析,是可以往临床方面去应用的,我们认为已经逐渐的成熟了。

这个项目应该是全球最大的 Nanopore 的一个项目,会有10万个 Nanopore 长读长的测序服务。为此我们也建了一个 dbSV 结构变异的数据库,跟 dbSNP 相对应,未来这个数据库里面会有10万个人的基因组的结构变异信息。

我们判断 Nanopore 是倒数第二个测序技术革命。为什么这么说呢,我们知道目前对三代测序挑战最大的是单碱基的精度。

除此之外,从通量,从速度,从成本优势来考虑,三代测序已经成为目前很多基因组测序项目不可或缺的一个选项,唯一的问题就是单碱基的精度问题。

看一下我们自己的 PromethION 平台数据的产生情况。这个图是我们去年到今年一月份基于 Nanopore PromethION 数据平台,可以看到一个 flowcell

(流动池)我们能拿到60-80G的数据。

这个图是我们的人基因组项目的数据产出,到2019年1月份,我们的数据产出已经10.63T了。大家可以看一下这个曲线,增长速度还是很大的。

接下来我们的第一台 PromethIONs P48 会在武汉装机测试。

这张图是去年在旧金山的 Nanopore 的会议上,我们看到 Nanopore 的目标还是蛮宏大的,一个 flowcell 的目标是700G,现在我们差不多能到200G左右,还有很大的提升空间。

右边这个图是用了新的技术,用了场效应的晶体管之类的东西,它有一个阵列提高穿孔速度,目前能达到450bp/s,以后可能能够达到1000bp/s;另外它的工作周期会更长,目前的基本标准是48个小时,未来基于 AI 技术会有一个很大的提升。

后看一下我们特别期待的 R10,我们有优先使用权,跟 R9.4来相比,R10实际上是检测两次,看上图左下角。

这是为什么呢?实际上 Nanopore 技术有一个比较头疼的地方,就是 homopolymer(碱基多聚体)的检测,因为单碱基的重复在过孔的时候电位是平的。每次检测五个碱基,如果要超过五个碱基的 homopolymer(碱基多聚体),经常会有一部分小的删除。

怎么解决这个问题呢,他们就引入了这个 R10 这个技术,实际上 R10 两次检测能够完美地解决这个问题。所以你看中间这张图上红色是R10,它的consensus accuracy(一致性准确性)比 R9.4 要高很多。

目前 R10 的测序质量可以看这个图的右上方能看到,consensus accuracy(一致性准确性)随着乘数的提高在迅速的提高,他们目标是Q50,就是达到99.99%这样一个 consensus accuracy(一致性准确性)。

图的右下角,通过 R10 和 R9.4 的联合使用,可以看到在基因组上的错误率能够显著降低,但我不知道他们以后是不是有一个方案是 R9.4 和 R10 一起使用。

这个图是我们对于未来测序行业的一个基本判断,我们判断在2020年,也就是明年最晚后年,二代测序和三代测序的市场份额应该是各占半壁江山。

接下来如果三代测序能够解决 consensus accuracy(一致性准确性)的问题,那么它的发展空间是非常大的,最后可能几种技术会融合在一起了。

接下来给大家讲一下宏基因组的组装的革命。

我们现在的目标是争取能够把宏基因组的拼装提高100倍,提高到1Mb的量级,这个困难还是很大的。

但有一点就是长读长应该是能够完全覆盖质粒和噬菌体,如果这个菌大于1%的丰度,我们很有把握能够完成。

最后讲一下我们公司的核心价值观,最重要的就是科学的边界,在任何时候,我们知道我们能够做什么事,什么事情我们应该做,什么事我们不能做。

然后是技术的极限,什么意思呢?大家看我们实际上还是蛮冒进的一个公司。但是每次冒进都是基于对未来的 vision(远见),对未来的判断。这个判断从何而来呢,就是通过大量的数据和使用,我们了解这个技术的一些特性。

然后是伦理的底线和人文的关怀,大家很多人都是汪总的朋友,知道他是一个有情怀的人。

实际上我回来的一个重要原因,就是因为我以前虽然是做生物这一行的,但是其实我觉得罕见病离我非常远。

我有一个特别好的朋友是北大师兄,他是一个成功人士,在投行工作,已经财务自由了。后来他才告诉我他是一个罕见病患者,到40多岁50多岁肯定就会失明。他是学化学的,他看了上千篇论文,然后自己成立一个公司,专门 form patients,for patients(取之于病人,用之于病人)。

我觉得一下子就被震撼了,他本身是个患者,他把所有的家产投入到罕见病治疗的公司。

大家知道罕见病治疗公司很不受待见,因为回报非常低,受众非常小。我觉得这等于拔着自己的头发把自己从井里面拉出来,这个精神特别鼓舞我,所以我也下定决心,从国外回来,加入遗传病和肿瘤的检验方面。

最后,欢迎大家到希望组/未来组指导工作。