在这次疫情的预防和治疗中,大数据起到了很重要的作用。
哈佛大学免疫学和传染病学博士内森 ? 沃尔夫的《病毒来袭》,对传染病进行了理智细致的分析,教我们如何用应用大数据来预防和治疗疾病。
《病毒来袭》
【美】内森 ? 沃尔夫 著 沈捷 译
湛庐文化 / 浙江人民出版社
大数据自从2008年以后变成一个很火的概念。事实上这个概念出自于金融行业,因为金融行业对于数字是最敏感的,银行业总是希望知道应该给什么样的人发放贷款,它们能够保证收回贷款,还要收到利息,不能给什么样的人发放贷款。
所以在2021世纪初,金融行业发展出了一些模型,用来预测人们的消费行为和他们的金融行为之间的关系。这样做的后果是什么呢?银行的业绩大大的扩展了,然而次贷危机也发生了。
不管结果怎么样,这些模型已经显示了它的威力,就是通过对于遗忘存在的海量数据的分析,可以对人类的行为进行分类,进而可以预测人类的行为。所以实际上大数据简单讲就是两件事情:分类和预测,分类的目的是为了预测。
明白了这一点,对于疾病来说,有没有办法对治疗、愈后以及病情的发生发展进行预测?答案是肯定的。
当有了足够多的数据,当有了足够多的关于这些数据的处理的知识之后,那么你就可以对发生了的疾病,会对在特定的人身上产生的效果作出预测,同时也可以对在什么情况下会暴发什么样的疾病进行预测。
每年防疫系统都会发布流感的暴发趋势的预测,他们的数据是怎么来的呢?对于疾控系统来说,他们来自于所谓的各种各样的哨点监测数据,什么意思?就是在基层的诊社区设立发热门诊,这些发热门诊会报告每天、每周、每月的发热人数,这些发热人数汇总起来了以后,通过模型的计算,可以从时间尺度上看出一些变化,比如说从10月底开始就会出现发热的人数的增加,这个时候就可以预测出流感的高峰要来了。
另外一个路径,比如说利用Google这个搜索引擎工具,它本身也是一个大数据工具。
当有人得了感冒,他会根据感冒的症状,他会去这些搜索引擎上搜索感冒怎么治?如果有100万个人在同一天都发出这样的搜索关键词,那么搜索引擎就会把这些相关联的关键词形成一个搜索页面,然后就可以利用这个搜索页面上呈现的数据做出预测。
两年前Google发表了一篇论文,他们通过这种办法,提前预测到了流感高峰的到来,甚至比美国疾控系统提前一周左右。Google现在也已经开发了这样的工具,用户可以用这种关键词去进行搜索,通过这种方式就可以帮助大众了解疾病发展的动态。
比如对这次疫情发布实时新增和确诊病例数据的丁香园,就是利用大数据来进行病情发展趋势的预测。
全国新冠肺炎疫情实时动态
图自丁香园
除此之外,大数据时代还有利于建立流行病毒的数据库。
每当科学家对一个新的病毒进行基因测序之后,就会把这些数据上传到世界卫生组织建立的数据库里,形成一个传染性病毒的基因库。这些数据也可以供世界各国进行再分析。比如基因序列分析,进而就可以知道病毒是如何进化来源是什么。这样做的好处是可以对病毒进行溯源了,另外还可以看到这些病毒的传染性在分子层面上的变化。