近日,Google 发表的令人有些挫败感的研究成果,其 AI 诊断系统据称在实验室里能达到 “专家水准”,但在临床中护士甚至不推荐患者使用 AI 系统。此种落差,又把人们的视线拉回了 AI 的老问题,“人工智能” 为何到最后还不如人工?
Google 通过研究获得的经验是,把 “以人为中心” 的评估纳入模型。而事实上,早在 2018 年,斯坦福大学计算机教授、Google 云首席科学家李飞飞就曾经在《纽约时报》发表过一篇文章,认为 “以人为本” 的 AI 才能使人工智能在未来发挥积极作用。
图 | 护士操作眼底照相机,给病人的视网膜拍照(来源:论文)
实验室环境下准确率超过 90%
泰国是 Google 选定的测试地区。该国卫生部希望在一年时间内完成对该国 60% 的糖尿病人进行糖尿病性视网膜病变(DR)筛查的任务,这意味着 200 名视网膜专家要对 450 万名患者进行诊断,如果不能及早完成筛查,DR 可能会导致失明。
泰国卫生部传统的方法是,护士在做检查时为患者的眼睛拍照,通过电子邮件或者光盘送到其他地方的专家手里进行筛查,整个过程可能需要长达十周的时间。不过护士通常会通过初步判断,通知有明显的异常的患者转诊眼科医生。护士的初步判断一般是根据轻度、中度、严重非增殖期和增殖期四个程度,以及糖尿病性黄斑水肿(DME)的情况,给患者复查建议或者要求转诊。
针对如此典型的 “问诊难” 问题,Google 希望通过自己的 AI 诊断系统解决。
Google 研究人员此前建了一个有 12.8 万幅图片的数据集,每张图片记录了 3-7 名眼科医生的评估结果,然后训练算法。该系统已经拿到了 CE 认证,但仍在等待 FDA 批准。这套系统通过扫描眼睛,利用图像分析来显示是否有血管堵塞或者渗漏,以此识别 DR 的症状,据称准确率超过 90%,Google Health 研究小组称之为“人类专家水平”,原则上,十分钟内就能出结果。
理想状态下,这套系统理论上能省去护士判断和分级的步骤,并且不用再把图像发给眼科专家。
Google Health 的用户体验研究员 Emma Beede 说:“我们必须在 AI 工具被广泛应用之前,了解它是如何在环境中为人们工作的,尤其是在医疗领域。”Beede 和她的同事在泰国的十一家诊所配备了他们的深度学习 AI 诊断系统,在几个月的时间里,他们观察护士的使用情况,并采访他们的使用体验。
图 | 部署深度学习系统之前和之后的眼病筛选过程(来源:该论文)
算法拒绝了 21% 的图像
要想使图像更利于人或者机器进行分级,就必须要捕获清晰的视网膜区域,也就是说相机的光线需要进入到眼睛的后部,这就需要患者的瞳孔放大,或者是在黑暗的环境中,或者使用瞳孔扩张滴液。但 Google 测试的十一家诊所中,不同诊所的检查环境大不相同,只有两家诊所有专门的暗黑拍片室,一些诊所没有扩张滴液,其他诊所都是在办公室进行拍摄,即使相机上方有荧光灯,也无法拍出满足系统要求的图像。
根据现有的 AI 法规,CE 和 FDA 的认证主要针对准确性而不是诊断或者治疗效果。为了保证系统的准确性,Google 研究人员对图像质量有严格的阈值,未满足要求的图像会被拒绝识别。这就造成算法拒绝了 21% 的图像。这种情况下,系统会通知护士,护士要告知患者转诊。其中一个诊所的护士说:“系统给出了确定的结果,但也有一定的局限性。有些图像比较模糊,我还能看清,但是系统看不清。”
一些护士认为,在现实条件下,可以通过拍摄两次图像合成一张完整的图像,他们希望系统能做到这一点。但系统做不到,因为参数设置要求每一张照片都必须是高质量的。这让护士感到沮丧,相机的闪光灯会造成病人的不适,病人最多接受两次拍照,并且两次拍照也会浪费时间。
图 | 一名护士试图通过拍摄同一只眼睛的两张照片,在不同的光线条件下合成一只眼睛的图像(来源:论文)
另一个重要的问题是,整个系统的运转强烈依赖网络,图像要被上传到云端才能被评估。但是在此项研究中的诊所网络连接时长出问题,往往需要 60-90 秒才能完成上传,严重减慢了筛查速度。如果网络断开两小时,一家诊所一天能检查的病人数会减半。一个诊所表示:“病人喜欢即时结果,但网速慢,病人抱怨。他们从早上 6 点就在这里等了两个小时,我们只能检查 10 个病人。”
这场测试反映了理想的 AI 系统,与资源有限的现实环境之间的尖锐矛盾。
最终,Google 似乎从中得到了很多经验:“把以人为中心的评估纳入深度学习模型评估,并通过临床网络生成的数据来提升模型性能,我们可以降低深度学习系统在现实条件下失败的风险,并增加对患者和临床医生有意义的改进的可能性。”Google Health 小组现在正在与当地诊所进一步完善工作流程,比如,训练护士在临界情况下自行判断;调整模型算法以处理不完美的图像。
Beede 说:“有一个护士自己筛选了 1000 个病人,有了这个工具,她是不可阻挡的。病人并不真的在意识别图像的是机器还是人类, 他们更关心自己接下来将会经历什么。”
“以人为本”
Google 布局医疗领域早在 2016 年就有所行动,IBM 也在同年成立了 Watson Health,与世界各地的不少知名医院进行了合作。在 2017 年 IBM 研究院还发布研究成果,称在视杯及视盘的检测上,机器能达到 95% 的准确度。但从发布结果到现在,该系统几乎没有重大临床使用进展。
AI 医学影像是目前人工智能 + 医疗领域较为热门的行业之一,据 Global Market Insight 的数据,2024 年,AI 医学影像将达到 25 亿美元规模,占整个 AI 医疗市场规模的 25%。
“利用成像数据进行诊断方面,深度学习网络一直优于专业的医生。尤其是视网膜图像,相比于皮肤或者病理成像,它的变异性更小、数据更好,深度学习系统的表现也更好。这就是为什么 Google 和 IBM 等大公司都决定专注这一领域的原因,”Alex Zhavoronkov 博士说,他是 AI 药物发现公司 Insilico Medicine 的首席执行官,“但在临床中,系统的限制变得明显。现实中的数据质量和用于训练的质量相差很大,导致影响性能。”
他认为,这项研究只是强调了 AI 工具在大规模应用部署中所需要克服的一个小挑战。
加拿大滑铁卢大学的 Hamid Tizosh 也从事 AI 影像诊断工作,他认为 Google 的研究是至关重要的,这是一个及时的提醒:在实验室确保准确性只是第一步。
早在上个世纪,《黑客帝国》就为我们描述了一个人机共生的未来。而现在人们讨论的“人机共生”,更多的是剥离了《黑客帝国》的反乌托邦主义色彩,人机各有所长,互为补充,人类投身于更具价值的工作,同时将大量重复的工作交给 AI。对于医疗行业而言,人与科技之间的关系或许也应如此。借用麻省理工学院 AgeLab 的 Bobbie Seppelt 博士评论自动驾驶的一个观点,“最理想的情境是人与科技共同找出最优的解决方案,而不是由任何一方单独完成。”
最后,有必要重新思考李飞飞提到的“以人为本的 AI”(human-centered A.I.),其中第一个目标是:AI 需要更深层地反映人类智能。人类的视觉感知非常丰富,它很复杂并且受周围环境应影响,可以自然地将我们对显而易见的目标的认识与对细微差异的敏感性平衡起来。相比之下,机器的感知仍然非常狭窄。
让 AI 对整个人类思想更敏感并非易事。这些解决方案可能需要来自超越计算机科学领域的洞察力,这意味着程序员将不得不学习如何与其他领域的专家进行更频繁的协作。这种合作意味着回归 AI 的根源,而不是背离它。