阿里云何万青:疫情后生命科学产业爆发,云计算是基础中的基础

11 月 20 日,由苏州市相城区人民政府与《麻省理工科技评论》联合主办的 EmTech China 2020 全球新兴科技峰进入第二天议程。今年,EmTech China 邀请到了数十位顶级科学家、海内外院士、商业领袖、科创精英莅临现场,探讨新兴科技发展现状及其为人类社会带来的巨大影响。

会上,阿里云高性能计算总监何万青分享了阿里云在新冠抗疫、药物疫苗研发以及跨界协作中所提供的关键技术支撑,以下为整理后的演讲实录:

大家好,今天早上我起的比较早,得到一个消息,今天我其中的一页非常重要的更新。

今天我提到的一个用户和医药科学方面的合作伙伴,获得了高性能计算行业的诺贝尔奖 – Gordon Bell 奖,两天前我准备这个材料的时候,它是中国唯一入围决赛的,六家入围的其中一家,戈登贝尔奖有什么样的背景呢?在 2012 年的时候,我们天河二号第一次登顶我们连续四届世界最强计算机的时候,那时候中国拿不出一个应用可以申请戈登贝尔奖,当时全世界去找科学家用户来使用它,直接到 2016 年北大、清华联合团队,我们拿到了一个戈登贝尔奖。

今天深势科技是我今天要讲的内容之一。我今天来给大家讲故事,为什么派我来,非常有幸我在新冠期间,阿里云向全社会,全球开放AI免费算力,我们推动 AI 辅助药物筛选技术在新冠期间蓬勃发展,后来在 3 月初我们决定向全球做科技抗疫的时候,我的 email 放在通告上作接口,因此亲自看到了中国从爆发疫情以来,一个短短的两周的时间内,大概也就是到一个月,当你一项技术抓不住时间窗口,不能够雪中送炭的时候,我们就很难帮到社会的,但是我们阿里云有幸做到了这个,我们看到科技的力量。

回到戈登贝尔奖,我们看到苏州有非常强大的医药健康产业,使用这种AI辅助药物的挖掘和虚拟筛选,今天我们看到依赖于成百倍、上千倍增加的 AI 算力。

刚才是题外话,我今天第五第六页的时候我原来写的是恭喜深势科技入围,但今天他们摘取了戈登贝尔奖,是非常了不起的事情。证明 HPC , AI 和物理实验三者结合的新范式。

我今天讲内容实际上两部分,第一部分是 AI 技术怎么样促进药物研发。

第二部分,主要的技术是 CT 辅助的新冠病情它整个的情况。

尤其是分享刚才我说的集中的二三四月份到五月份,它是什么态势?我们今天很有幸可以在这里面坐在这儿开会,但实际上全世界新冠疫情发展还是个未知数,所以今天讲到科技有多大的实力,在药物产业和生命科学这个行业有非常大不确定性和需要长期的努力。

这是我们阿里云科技抗疫的一个时间线。

1 月 21 日,我们大概是 23 、 24 号放假, 24 号左右武汉封城。21 日我们还在上班,中午的时候突然想起来,我给一个很重要的合作伙伴,全球健康药物研究中心,它是比尔盖茨基因会和中国一起合作的机构,我说你能不能算一下,武汉的病毒 DNA 序列刚发布,算一下这个病毒跟 SARS 的区别, GHDDI 使用阿里云的资源,我们已经合作过很长时间,大概两个半小时以后,拿到了结果,新冠病毒和 SARS 病毒的蛋白质结构 90的相似性,

但是很吃惊的发现,估计传染性是 3 倍以上,但是那时候不能公布。接下来我们发现这种企业跟科学家合作情况,可以推动我们尽快的建立把新药研发这套办法和数据库放上让所有公共科研使用。

当时那么想,因为马上就春节放假了,几个主要科学家都回家了,因为疫情隔绝没有办法去办公室,后来大家看到了,不管是钉钉,还是各大互联网公司提到的互联网线上的新基建,其实给科学家提供了最好的雪中送炭的工具,我们29日的时候,就由这件小事驱动确定向全社会开放 AI 免费算力。

在那个时候大家都在家里面,我们跟各个科研的老师包括我们和浙大、清华大学、湘雅医院、钟南山医院,其实跟终南山团队的会挺感人的,我们那个时候在家里的时候,其实起的比较晚,但他们八点之前起来都戴着口罩,在医院里面跟我们视频通话。

那个时候我们知道,全世界靠的是有经验的科学家的大脑。但是这么一个未知的病毒怎么排查它,靠科技我们会不会更早看到?

医药产业发展到今天,其实如果大家读一些科普的书,就是医药发展的历史,是非常撞大运的过程,真正广谱药其实是手指头数得过来的,从土壤中找到,通过化学、通过工业化、科学产生了很多公司,这些公司实际上是解决怎么样大规模生产,但是找到这个药物,还要让它能够在毒性上面、浓度上面让人体的结合,非常难的,一般新药的研发到上市平均时间是 13 年左右,投入非常巨大。

这个过程中,现在大量的生命科学的计算,它主要的研究阶段基本上通过计算完成,全世界包括中国的超算中心,前 10 位的应用里面,大概有 4 个以上都是分子动力学、量子力学做第一性原理计算。

这个过程中怎么样找到先导化合物,靶点的识别,这些东西都是庞大的计算,但之后怎么样找到这个药物、合成这个药物其实真的有非常大随机性和幸运在里面,所以这里面会发现最难的占时间最长的两部分,一个是干实验,一个是湿实验。

我们刚才说疫苗为什么这么难?因为它要做三期实验做完,一年两年的时间。

我们发现在支持过程中采用 GPU ,采用AI的筛选这个算法越来越是加速,我们把它抽象出来就是生命科学计算有三大类,一类就是生物信息学,就是基因序列分析,比对和结合。

还有一大部分计算量非常庞大,今天为什么超算还在不断的往前增加计算能力,是因为我们要模拟和完全了解一个细胞的细致情况,和大量细胞这种计算量都是非常难的,戈登贝尔奖之所以给深势科技,是他们将分子动力学的一类计算并行度扩展到 10 亿个分子级别。

这都是要解决我们现在生命科学的一个问题。我们实际上在做靶点的识别和跟化合物的筛选,其实在这个项目里面,后来支持了国内筛选 14 家公共科研机构,基本上组建成这种方式。

第一,巨大量的计算是用在第一性原理,很多的应用,我们找到化合物蛋白质的基因测序做筛选比对。美国刚刚拿到武汉的序列之后,第一个给可能药物是德州大学的科学家,为什么?因为这些科学家平时早做这个,脑子里面知道哪一类的化合物有用的,但是我们不能靠个把人,而且人的经验和处理都是有限的,所以现在出现了 AI 和机器学习以后,大量的筛选比对,同时跟全世界的开源的医药分子库去做结合,这个过程其实是大量的知识图谱的筛选。

在这个过程中 GHDDI 在阿里云上建立了全球开放式的新冠研究平台,算出八种最有效的化合物,计算上来讲第一位是瑞德西韦,但是大家仍然看到,算出来是对的,但是用起来不一定有用的,这个过程中看到云计算起到了非常重要的作用。

通过阿里云全球加速服务,我们在第一时间能够马上获得跟全世界的开源药物库去联合,把海外服务网站和他们的数据全部拉通,国内很多研究需要这样的过程,我们通过阿里云的超计算集群,去提供服务。基本上都是采用八张 GPU 卡, V100 的算力,过去几天的计算量,今天大概 4 个小时,但总体仍然不够用的。我们知道分子尺度和规模,这就是我刚才讲过了,这个平台在春节期间上线,跟海外医药数据库同步更新,通过阿里的 OSS 的同步加速放过来,主要是采用这个模式。

现在大概有 100 多申请 GHDDI 服务,十几家已经算出结果,其实我们发现科学家第一时间获得支持的重要性,其实回头看,中国是最早接触到的病毒,我们最早有病例。实际上第一时间大概是用了三周到四周的时间把这十几家全支撑起来,一旦起来以后实际上它的成果被后来的研究复用,这一个阶段的工作就是在和病毒赛跑。

往下大家会想到另外一个问题筛查的问题,那部分的时候,我看到收到的需求就像脉冲,全部集中在那几周,需求 email 雪片般飞来,几周过去以后没有人申请了。

当这个窗户开的时候,要有技术和能力,没有接住再也没有你的机会,从这件小事儿上可以看出来。

另外,我过去做过十多年的高性能计算是在做硬件和设备,中国也有很多上榜的超算系统,今天,我发现在科研领域,更重要是产业的公司在做这个事情它的灵活性,比如深势科技非常聪明的使用我们 Spot 实例,就是抢占型实例, 30% 的成本就支撑整个的大规模计算服务。这就是他们的文章,今天早上新闻说出来已经获奖了,我们看到云计算的灵活性,这是我们后台看到的资源使用量,10 月以后这部分整个量上来了,因为他们做优化研究,要做强扩张,即便只有一个分子的计算,给它不断的切到很多张 GPU 卡上去,是不是可以有效加速,这部分工作需要大量的随时可获得的资源、弹性的资源,阿里云 EHPC 提供了支持。

接下来第二部分,第二部分这个故事我感触非常深, 3 月初一天马老师决定阿里云科技抗疫对全世界开放,团队说要不要你来接收邮件,我当时有些犹豫的,因为还有日常工作。确实打开以后,从那天开始,一直到 4 月 29 日,每天全世界的时差响应 email ,不断有邮件涌进来。这几个月期间数字非常清楚, 50 个左右的国家和地区,但一开始比较恐慌的是一些还没有疫情的国家,保加利亚、立陶宛什么的。写邮件过来的时候说, 我们医疗设施,没有办法抵御冲击的,虽然我们境内还没有多少,但是我们很怕马上就有,监测不过来,所以 90% 来找我们提供了阿里达摩院做的新冠肺炎的 CT 影像分析。CT 监测比较准尤其在后面,治疗过程中决定病灶,怎么确定普通肺炎还是新冠,我们在新冠之前我们做这个工作,一般我们现在的 CT 监测,一个主要靠医生,但实际上我们通过卷积神经网络,可以把结节的分类,通过它的特征给它标出来计算,它主要的就是说我可以非常快的来做这个事,我们支持国内的医院,他们国内在抗疫战场上的医院,每天处理大量 CT 片的监测,帮助医生监测。

当时一些医学研究生学生还不能上学,被紧急招回学校,为什么呢?要做大量的 CT 检测筛查,当时武汉的 CT 会分散给湘雅医院还有很多医院。读片速度非常快,包括火神山,大家可以看这个数字,最快两秒钟可以完成。因为时间有限没有放另外一个片子,那个片子大家可以看到,除了把它检测筛查病灶, 支持医生最后来做决定,还有一个在病灶过程中需要三维的重建,这个三维还原这个过程中知道治疗过程中变的多大了,变的多小。

是基本上控制住了,还是也有可能生成新的病灶,这个过程中很要紧的。下面是我们说的流行性和溯源,这部分很重要跟基因检测放在一起,阿里云跟浙大还有浙江的疾控中心,我们把基因库和基因组的筛查,这部分 AI 免费算力主要的方向。

这样一来的话,实际上一方面大量的来自不同的医院,不同病例的这些样本会上云,在云上进行聚合,然后打标进行监测,另外一个我们把这部分东西跟第三方合作伙伴,把基因测序,基因的一体机做出来。

这样的话我们可以从机器的提供方拿到没有差别多样化的训练样本,为什么检验这么准,越检验越准,是来自云本身它的互通和互联性,这个是我们做的。

大家看到五倍的速度,三小时监控,十一小时测序。

这个过程实际上是集中一段阶段做这个事情。

印象比较深的,我们对海外进行开放的时候,更多的因为很多国家还没有来得及反应,他们想知道中国的抗疫经验,除了口罩这件事之外的抗疫经验,我们把浙大医院还有医院的医生让他们通过钉钉,通过视频,通过 AI 技术把它中文讨论直接转换成英文,转换成英文语言,跟全世界不同的地方求助者和医生交流,记得跟霍普金斯医院有连接去分享,当时我们紧急的编了一本抗疫手册,那个时候我带整个团队有一个感觉,第一我们自己很慌,不知道什么时候能有进展。另外一个方面因为做这个事情使得自己稍微没有那么焦虑。在这个过程中我们看到其实在海外对疾病的认识和他们的不同国家的制度和规范,他其实的反应很多情况下是非常希望说我知道中国在怎么做,所以我们做了不少合作平台,除了钉钉本身做一个平台,其实把视频转成音频,转成能识别的声音,我记得需求集中来的先来的是南美,还有前苏联联盟的,还有一些像刚才说的东欧的国家,最后冒出来厉害的是印度。整体来讲,我们作为第一个我们会把责任去做到,这个不是技术的问题,最重要是第一云技术本身在今天产生了不可或缺的第一时间反应的作用。

第二,科技的发展和责任的担当一定要第一时间抓住它,解决它,提供价值。

今天我的演讲时间刚好到,给大家讲我的感想,我们最后结论就是医药或者说生命科学一定是我们现在这个时代最重要的,也是需求最大的产业。

第二个云计算和云计算所支撑的基建,通过这次疫情我们看到,是未来大力发展最基础的基础建设,谢谢大家。