在新型冠状病毒疫情蔓延全球之际,科学家们除了从生物学和化学的角度寻找解决办法,还尝试利用科技的力量与之对抗。通过大数据资料,很多科技公司开发了追踪感染者活动路径的应用,从而帮助当地卫生机构更全面地掌握疫情的传播范围。
另一方面,为了利用现有资料进一步提高病毒检测效率,一些工程师和科学家将目光聚焦在了人工智能上(AI),寄希望于它善于寻找规律的特长,期待在茫茫多的临床数据中挖掘出人们尚未发现的重要信息。
近日,一份发表于 Arxiv 的预印本论文阐述了如何利用 AI 识别和分析冠状病毒感染的临床特征。研究团队成员来自于美国知名医疗机构 Mayo Clinic(梅奥诊所)和医疗数据分析初创公司 Nference。
论文指出,通过 AI 分析 800 多万份临床数据后发现,腹泻是最值得关注的早期症状之一。在测试 4-7 天前,绝大多数患者会同时出现咳嗽和腹泻症状,伴随着味觉或嗅觉丧失和大量出汗。这些综合起来组成了新冠肺炎最早期的症状清单。
图 | 梅奥诊所
虽然新冠病患出现上述症状早已为人所知,但研究人员表示,通过技术手段(神经网络)整理和分析海量数据,可以加深人们对症状的理解,不仅可以验证现行观点的准确性和科学性,也有助于早期病例的自我发现、筛查和分类,实现早发现早治疗,有效减轻医疗系统的负担。
为了训练 AI 系统,梅奥诊所提供了近 823 万份电子病历版临床记录,囊括了 14967 名接受了 PCR 检测(聚合酶链式反应检测)的测试者信息,其中有 272 名患者确认感染了新冠病毒。
电子病历详细记录了每名测试者的症状资料,比如腹泻、头痛、发烧、乏力、味觉或嗅觉丧失等等,时间跨越测试前数周到测试后数周。为了让分析结果更有说服力,研究人员只使用了最早追溯到测试前 7 天的症状,并且大致分为肠胃类、呼吸类和感官类特征。
研究中所使用的 AI 并非专门针对疾病诊断的系统,而是基于谷歌 AI 开源的 BERT 模型,专门用于自然语言处理(NLP)。原因是其性能强大且无需太多改动,能够直接提取电子病历中的海量数据,以关键词的方式加以分析和归类。
研究人员通过该模型实现了疾病、药物、症状和其他关键词的自动识别和提取,量化各个关键词与上下文的关联强度,然后将每一种联系分类为 “正面” “负面” 或者“其他”。
针对不同人对类似症状的表述方式不同,他们会让 AI 系统做出综合整理。以关键症状 “胸痛” 为例,AI 会自动将病历中的 “胸痛” 类词汇整合起来,诸如 “胸闷” “胸口疼” “胸口堵塞” 和“胸口不舒服”等词汇都会被归为 “胸痛” 类别。
图 | 部分早期症状在阳性和阴性测试者中的比例(来源:Mayo Clinic)
最终,AI 系统提取出的信息显示,在接受 PCR 测试前一周内,有 43 名新冠病毒阳性患者出现过腹泻症状,占总阳性人数的 15.8%,而相对的,只有 5.6% 的阴性测试者声称有过腹泻。两者相差近三倍。
在 272 名确诊患者中,约有 3% 的人出现了嗅觉或味觉失灵,虽然比例不大,但这种情况几乎不会在正常人或阴性测试者身上出现,因此比咳嗽和发烧等症状更具代表性。
另外,确诊患者出现过度出汗、疲劳和头痛的比例分别是 11.4%、13.6% 和 12.9%,也明显高于阴性测试者。但较为常见的咳嗽和发烧症状,在测试者身上的对比似乎并不是太明显:约有 25% 的阳性患者称自己出现上述症状,而阴性测试者中,也有 19% 的人声称自己同样出现了上述症状。
这可能是因为症状较为常见,容易出现主观认知偏差。
在进一步分析数据之间的关联后,研究人员发现,有两种症状组合最值得关注:咳嗽 & 腹泻和盗汗 & 腹泻。它们同时出现时与阳性患者的关联最为紧密。
数据显示,约有 13.2% 的阳性病例同时出现了咳嗽和腹泻,比例是阴性病例的 4 倍。而同时出现盗汗和腹泻的阳性病例有 21 例,占比 7.7%,是阴性病例的 5.5 倍。
相比单一表现,组合症状与阳性病例的关联性更值得注意,而腹泻不仅本身具有独特性,又是两种组合的共同点,说明它很可能具备重点关注的价值,与新冠病毒的关联性值得挖掘。
不过研究人员也指出,这项研究的核心是提取电子病例数据进行分析,因此受患者主观表述的影响较大。例如无症状患者的一些轻度症状可能不会报告给医生,没有记录在病历中,或者主观认定某种症状出现过,但实际上并没有,导致分析结果出现偏差。
“我们分析电子病历得来的成果能够帮助病理学研究。针对新冠病毒的高灵敏度和高特异性血清测试(抗体测试)正在逐渐成熟,人们有望在家中自行测试,所以捕捉相关症状将变得越来越重要,”研究人员强调,“我们希望类似于这种 AI 系统的,基于电子病历的数字医疗工具可以提供帮助。”