和开发研制新药一样,发现老药的新用途也是医药科研人员和制药厂商的工作之一。目前,老药新用的发现途径多为偶然发现或临床试验的方式。但近期,俄亥俄州立大学研究人员开发了一种深度学习的框架,通过定制深度学习框架的方式对大量患者的“真实世界数据(real-world data,RWD)”进行回顾性分析,再结合因果推理来模拟药物的临床试验,为老药新用提供了新的途径。
1月4日,该研究以《一个通过在真实世界患者数据上模拟临床试验找到药物新用途的深度学习框架》(A deep learning framework for drug repurposing via emulatingclinical trials on real-world patient data)为题发表在《自然机器智能》上。
尽管该项研究是以预防冠心病患者出现心脏衰竭和中风为出发点而提议的老药新用,但张平对 DeepTech 表示,该框架具有高度的灵活性,可以同理应用于大多数疾病研究中。“该框架理论上是可以用于寻找可能的新冠肺炎药物的,但这项研究进行的时候还处于新冠爆发初期,数据不足以支撑”。
用深度学习框架分析数据,模拟药物的临床试验
目前获得药物新用途通常需要进行偶然性药物测试,但这种随机性的临床试验不仅十分耗时,而且成本昂贵。据 MedicineNet 信息显示,在美国,一款药物从实验室研究到市场应用,需要经过多重复杂严谨的试验,平均来说,这个过程长达 12 年之久。
其过程中,随机临床试验是确定药物对疾病有效性的黄金标准。相比其他老药新用的研究方法,全新的深度学习方法可以理解为用监测患者用药以及用药后病情发展、身体各项数据变化的方式来模拟药物的临床试验这一环节。张平表示,基于 RWD 的深度学习框架能够有效克服数据中各种各样的干扰变量,建立老药和新的适用症之间的联系。
具体而言,他们是按照临床试验的思路开发了一套高通量的计算框架来筛选既有药物尚未发现的适用症,达到将临床试验这一发现老药新用的过程“搬到”线上。
以模拟临床上对药物是否对症以及效果的试验。在近日发表的这篇论文中,以冠状动脉疾病(coronaryartery disease,CAD)为例,张平及其合作者从大量的保险数据中提取患者的病情发展及用药成分清单,同时对每种药物对应的服用者和非服用者进行监控,观察服用不同药物患者的用药以及病情发展情况。
图|发现既有药物新用途的计算框架
以近期发表的研究论文为例,张平及其合作者将在已有但未表明可治疗为冠状动脉疾病(coronaryartery disease,CAD)的药物中寻找对 CAD 有效的药为目标,采用上述框架进行了超大规模的计算和分析。
已知 CAD 在临床上可能导致心衰、中风等,如患者服用了目前未标明 CAD 这一适用症的药物出现了病情好转,既可初步认为这款“老药”其具有“新用(治疗 CAD )”的可能。
首先,为尽可能保证输出结果的可信度,他们从 2012-2017 年间的 MarketScan 商业理赔的患者数据中获取了约 1.07 亿位患者的身体健康数据作为此次计算分析的整体。数据包括门诊用药、住院治疗和门诊服务等方面,涵盖了患者看诊/复诊时间、用药清单及剂量等。为实现其发现治疗 CAD 新药的目标,张平等人从中筛选出了 117.9 万左右 CAD 患者展开进一步“监控”。他们从这些样本数据中提取 CAD 患者用药清单的记录,对每种候选药物按照临床试验的分析方法而分为:实验组——也就是那些吃了该候选药物的 CAD 病人,对照组——身体基础情况类似但没有吃该候选药物(而是吃了一些随机的其他药物)的病人。
图 | 模拟临床试验中实验组和对照组
此次研究中,他们选取了 CAD 患者服用的 55 种非治疗 CAD 的药物作为“老药新用”候选药物进行分析。筛选出参与“临床试验”的 CAD 患者后,将患者服用的 55 种药物作为候选药物输入上述计算框架中。接下来开启对服用候选药物的患者和与对照组患者进行病情发展情况的监测,包括所观察患者的初始疾病状况、是否服药、服用了哪些药以及何时开始治疗等数据,用数据来对现实生活中药物的临床试验进行模拟。
经过张平等人设计的深度学习框架计算,未出现心衰、中风或症状较轻的患者所服用的药物将作为结果输出,既为老药新用的“种子选手”。
文中结果显示,张平及其合作者观察到 55 种候选药物中有 9 种药物对患者的疾病产生了有益的作用。值得注意的是,在目前已知的4种用于治疗的 CAD 药物中,他们筛选出的 9 种药物中含有 3 种。
图|候选药物对CAD效果显示
为验证另外 6 种目前尚未指定用于治疗 CAD 的候选药物对 CAD 是否有效,张平及其合作者展开了进一步分析。他们用使用者和非使用者观察结果的加权平均数ATE(average treatment effect)来衡量候选药物对 CAD 效用。根据定义,ATE小于 0 的药物被视为对相应病症有改善效果,即未表现出心衰或中风症状或症状表现轻于未服用药物的患者;大于 0 则为病情恶化。从上图可见,ATE 小于 0 的有 9 个,其中此前未用于治疗该病症的药物标为蓝色,已知药物为红色。这表明了张平小组所设计框架思路的可行性。
除此以外,他们还通过分析惊喜地得出,现在正用于治疗糖尿病的药物二甲双胍和治疗抑郁症、焦虑症的药物依地普仑也表现出能够降低 CAD 患者心衰和中风的风险。目前,研究人员正在进一步测试这两种药物对 CAD 的疗效。
发现老药新用结果可靠,但也存在弊端
深度学习框架方法的可用性在以上研究中得到了印证,相比于传统的老药新用途发现方式存在偶然性以及前期测试成本高等不足,这种全新的途径有着自身的优势,但也并非没有缺陷。
尽管,相比于传统的在细胞或动物体的前期测试方式,基于 RWD 的深度学习研究获得的结果是直接从人体环境下完成的,省去了药物适应性的验证过程;深度学习框架下通过嵌入模块、递归神经网络和预测模块方式对所有影响药效的参数进行分析。
图|嘈杂因素净化处理
不过,张平也表示,深度学习方法虽然看起来完美,但在现实执行起来也存在一些不可避免的问题。因为现实很有可能并不如数据显示的那样,“比如病人可能会不按照剂量去吃药,甚至拿了药回去根本就没有吃等情况都是有可能的,这是从数据上无法看出来的。”在这一点上,深度学习方式无法和现实临床试验相比,真正的临床试验中精准控制患者的服药时间和剂量,至少在这方面临床上的严格服药把控能够更完全地体现药效。
但这种深度学习框架的方式也为老药新用的发现提供了新的途径,张平说,“我们是第一个开发深度学习的方法在 RWD 上做老药新用研究的团队”。
用AI仿真临床试验,由计算机学生和药厂的碰撞产生
本篇研究论文的通讯作者张平,其本硕博所修专业均为计算机方向,机器学习是他的主修课程,数据挖掘为他的研究方向。谈及对老药新用的接触,其实是有些巧合的。
张平接触老药新用是在其读博期间。结束了华中科技大学的本、硕学习后,张平在天普大学开启了他的博士生涯。期间,机缘之下他去到一家制药公司葛兰素史克(GSK)实习。也是在 GSK ,在用机器学习的方法解决问题时,张平接触到了老药新用,他回忆道,“那大概是 10 年前了,那时候深度学习还没有开始流行”。而接触 RWD 则是其在 IBM T.J. 沃森研究中心了,张平在那期间的多个 AI 研究后来也被应用于药物发现和患者安全的项目里。
图|张平
但真正开启 RWD 和深度学习在老药新用方面的研究是在他到俄亥俄州立大学之后。“实际上,俄亥俄州立大学同时拥有优秀的医学院和工程学院,这里丰富的数据资源是我以完全不同的视角重新做老药新用研究的机缘。”
2019 年初,张平加入俄亥俄州立大学在生物医学信息学系和计算机科学与工程系双聘助理教授。他领导的医学人工智能实验室——AIMed,其实验室的名字也有特殊的含义,“aimed翻译为中文可以是致力、目标的意思,我们组致力于 AI 算法的同时目标是解决医学(medicine)上的各种疑难问题,这里也取其一语双关的意思。”目前,AIMed 实验室主要进行三大方向的研究:一是本文中提到的用以辅助医药研发人员、制药厂老药新用的筛选;二是帮助医生做基于 AI 的医疗诊断;三是用 AI 去辅助放射科医生对医疗影像进行解读。
谈及此次研究论文的一作刘若琦,张平对 DeepTech 说,“她完成这个研究的时候才博士一年级,这是个非常不错的成果。”另外他也提到其实“这些学生挺辛苦的,刚入学不久就赶上疫情。我们也不能回学校,沟通都是在线上。”刘若琦本科就读于武汉大学,现在已经是俄亥俄州立大学计算机科学与工程系博士二年级的学生,据其个人介绍显示,她的研究兴趣集中在数据挖掘、因果推论及其在医疗保健中的应用上。
图|刘若琦
另外,在本次研究中至关重要的数据统计以及结果分析,由俄亥俄州立大学生物医学信息学系研究助理教授魏莱参与完成。魏莱老师同时也是该校生物统计学中心临床试验主管,负责对多个度量值进行建模,并设计小组顺序试验和自适应试验。其重点研究适应性临床试验设计和样本大小重新估计实验。
图|魏莱
对于深度学习方法在老药新用方面的探索,张平表示,“虽然此次发布的文章中只提到了对 CAD 药物的筛选,但这一框架是普适的,能用于对任何一种病症的药物筛选,只要输入相应的症状即可。”
他说接下来将把该框架应用于对更多真实世界数据的老药新用以及寻找治疗目前临床需要的药物和对罕见病症、疑难杂症的治疗药物,他希望能够用AI的方法真正帮助攻克医疗难题,为医学研究做贡献,“而不仅仅只是停留在研究层面”。