一口唾液就可能会反推出你的长相,做基因检测前请三思

从网上下单、支付,两天内收到采样盒,完成唾液采集,邮寄到基因检测公司。一个月内,你将得到一份祖源分析报告。在报告中,可以看到你的血统构成,甚至还可以看到你的家族或祖先的迁徙演化过程。

曾经动辄几千甚至过万的基因检测,现在已经开始普及惠民。大多数消费级基因检测公司(DTC)的服务费已经降至 499 元,且仅国内就有 200 多家基因检测机构。

美国科学院院士、“科学怪才”克雷格·文特尔(Craig Venter)本周在《美国国家科学院院刊》(PNAS)发表论文称消费级的基因检测极有可能存在隐私风险。

一旦检测机构获取了你的 DNA 序列,通过机器学习算法,就可以反推知道该 DNA 序列的拥有者的肤色、瞳孔,甚至声音。

       Craig Venter

2014 年,国家卫生计生委与国家食药监总局(CFDA)联合叫停基因检测服务。在美国,联邦政府唯一认可的消费级基因检测公司也只有 23andMe 一家。因此,大多数基因检测公司的业务其实处在灰色地带。

23andMe 与药企合作,根据海量消费者的基因数据进行疾病基础研究时,做出保证,消费者的基因信息都是匿名化的,不会泄露隐私。

然而在文特尔看来,这些承诺都是虚假且不可靠的,他呼吁更全面的措施来监管基因检测中的个人隐私问题。尽管自己作为联合创始人的公司“人类长寿公司(Human Longevity Inc)”也涉及基因测序业务,收集大量基因组数据。

       23andme 的基因检测套装,在亚马逊就可以购买该服务

文特尔团队的论文显示,他们实现“身份反推”所依靠的是基于机器学习算法。

他们搜集了 1,061 个样本进行训练,建立起基因信息和面部特征、声音等的关系,并搭建了模型来预测 DNA 背后的三维面部结构、年龄、身高、体重、肤色、瞳孔颜色和声音。

       三幅人脸对比中,左侧为真实人脸,右侧为算法预测的人脸。

研究人员选取了 10 位来自不同种族的志愿者的图像和基因信息,并打乱,然后让计算机进行配对。结果显示,计算机的配对正确率是 80%。但如果测试对象是来自同一个种族,比如欧洲裔或非洲裔,配对的正确率会有所下降,为 50%。

研究人员表示,目前算法还仅基于千余个样本的训练,随着样本的增加,准确率会得到改善。

美国 DNA 检测公司 MyHeritage 首席科学家、哥伦比亚大学计算机学助理教授 Yaniv Erlich 毫不客气地质疑该论文的“主要错误”,认为其实际上并没有利用全基因组信息中的标记物来识别身份,他们只是根据人口统计学上的平均值来进行了预测。

虽然基于算法的推测尚无定论,然而人类基因里包含大量隐私信息却是不争的事实,一旦基因隐私得不到保障,消费者将获得比电话号码泄露更加可怕的后果。