人工智能实现迄今最准确的人类过早死预测样本库正确率达到76%

通过人工智能来预测寿命不再是神话了。这是来自诺丁汉大学科学家的研究所作出的结论。

相对于专家开发的标准预测方法,人工智能预测人类的过早死更加精确。这项研究近期发表在期刊《公共科学图书馆·综合》(PLoS One)上。作者称,未来,这些机器学习系统可以应用到患者的个性化医疗和风险管理的个人定制中来。

(图源:pixabay)

50万人的研究

这是一项针对 40 岁至 69 岁年龄段 50 多万人的研究,研究人员利用了英国生物样本库(UK Biobank) 2006 年至 2010 年间收集到的人员健康数据,并追踪到了 2016 年。

诺丁汉大学流行病学和数据科学助理教授 Stephen Weng 主持了这项研究,他多年来致力于提高计算机评估健康风险的准确性,此前的风险评估大都针对一种具体的疾病,而这次针对死亡的风险评估就要复杂得多,需要考虑可能影响其死亡风险的环境因素和个体因素。

他们使用了新的计算机风险预测模型,将人口统计因素、生物因素、临床和生活方式纳入了评估当中,甚至考虑了人们每天对水果、蔬菜和肉类的消耗。在将预测结果与来自国家统计局、英国癌症登记以及医院事件记录数据比照后发现,相较专家开发的标准预测方法,用人工智能的机器学习算法来预测死亡更加精确。

(图源:pixabay)

机器学习技术依赖于机器引导的算法,而非人工赋予的数据,它从数据中自动分析获得规律,并利用规律对未知数据进行预测,比如人工神经网络可以确定最优函数,将预测结果和真实结果之间的结果最小化。该研究中采用了被称作“随机森林”和“深度学习”的机器学习技术,研究者舍弃了传统的基于年龄和性别的Cox回归模型(比例风险回归模型)。结果发现,相较于不够准确的简单基于年龄和性别的Cox回归模型,机器学习系统能够分别提高 9.4 %和 10.1 %的精确率。

研究特色:样本库和变量选取

为什么选取英国生物样本库数据呢?英国生物银行是一个大型的前瞻性人口群体,该库通过问卷和护士问询收集了 50 万人的遗传、身体和健康数据,包括社会人口统计学、行为、营养、生活方式、药物治疗史和临床病史,也包括志愿者的血液、唾液和尿液样本,这些数据针对研究人员是开放的。这是一个独有的研究过早死的机会,因为自 2006 年开始登记以来,研究对象中所有的死亡都低于英国人口的预期寿命。

在英国生物样本库数据 502625 人中,研究者累积随访 3508454 人年,有 14418 例死亡。随访期间死亡案例中,男性( 60.7 %)多于女性( 39.3 %),死者的平均年龄为 61.3 岁,高于活着的平均年龄 56.4 岁。死者中白种人少见,更多是那些受教育程度低、慢性病史多、体检结果差、生活方式不健康的人,当然贫困人口也更多。

(图源:pixabay)

死亡的主要原因是癌症( 65.7 %),特别是消化器官的癌症( 19.2 %)和呼吸器官的癌症( 12.7 %)。第二常见的死亡原因是循环系统疾病,主要是冠心病和脑血管疾病。

研究者选取了 15 个变量,包括舒张压和收缩压、 BMI (身体质量指数)、 FEV1 (一秒用力呼气容积)、吸烟、锻炼、年龄、性别、种族、教育水平、贫困水平以及癌症、冠心病、 2 型糖尿病、慢性阻塞性肺疾病等四种慢性病。

通过 Cox 模型与随机森林、深度学习进行发现,在预测死亡方面最重要的风险变量存在重叠。值得注意的是,三种方法都确定了 15 个变量中的 6 个,即年龄、癌症的先前诊断、性别、吸烟、FEV1和教育水平。

种族和身体锻炼被 Cox 模型纳入重要考量指标,而两种机器学习未纳入。随机森林模型强调了腰围、体脂百分比和健康饮食(蔬菜和水果消费),甚至还纳入了肤色指标,而深度学习模型强调了酒精摄入、药物处方以及住宅空气污染与职业危险暴露等环境因素。

最终,深度学习算法提供了最准确的预测,正确识别了 76 %在研究期间死亡的受试者,随机森林模型正确预测了约 64 %的过早死亡,而 Cox 模型仅确定了约44%。

这次研究是第一次采用机器学习技术进行死亡这类复杂因素的研究。不过作者承认,机器学习技术仍存在限制,比如黑盒子问题,也就是深度学习的决策过程不易解释,人们只能看到数据输入与决策输出,但内中详情却无从知晓。这会让医生、患者以及监管部门心存顾虑。