既有帮助,也有干扰,AI能否让大夫表现更好?
科技日报记者 张梦然
医疗人工智能(AI)最受“吹捧”的答应之一,算是它们可以帮助人类临床大夫更精确地解读X光和CT扫描等图像,从而作出更准确的诊断报告,增强影像科大夫的表现。
肺部肿块的胸部X光检查。这种图像被用来训练AI模型检测和诊断疾病。图片来源:美国国立卫生研究院临床中心
但实际事情真的这样吗?
美国哈佛大学医学院、麻省理工学院和斯坦福大学的合作研究表明,使用AI工具进行图像解读的效果,大概因临床大夫而异。
换句话讲,有益依然无用,现时期依然人类讲了算。因为研究结果表明,个体临床大夫的差异,会以AI专家们尚未彻底理解的关键方式妨碍着人与机器之间的互动。该分析近日发表在《自然·医学》杂志上。
思考大夫个人因素
研究表明,在某些事情下,AI的使用可能会干扰放射科大夫的表现,并妨碍他们解释的准确性。
图片来源:美国国家医学院官网
尽管之前的研究表明,AI助手真的能够提高大夫的诊断表现,但这些研究将大夫视为一个整体,而没有思考不同大夫之间的差异。在临床上,每一位大夫的推断,对患者来讲基本上100%的。
相比之下,这项新研究着眼于临床大夫的个人因素——专业领域、实践年限、之前使用AI工具的经验,并分析这些因素怎么在人机协作中发挥作用。
研究人员分析了AI怎么妨碍140名放射科大夫在15项X射线诊断任务中的表现,即大夫需要可靠地发现图像上的明显特征并作出准确诊断。该分析涉及324名罹患15种病症的患者病例。
为了确定AI怎么妨碍大夫发现和正确识别咨询题的能力,研究人员使用先进的计算办法来获取使用AI和不使用AI时的表现变化。
结果显示,AI辅助的效果在放射科大夫之间不一致且各不相同,一些放射科大夫的表现因AI而提高,而另一些大夫的表现则“恶化”。
英国皇家医学院布拉瓦尼克研究所生物医学信息学助理教授帕兰纳福·拉普科尔确认了研究团队这一发现,并表示“我们不应该将大夫视为一个统一的群体,只思考AI对其表现的‘平均’妨碍”。
只是,这一发现并不意味着应该阻止大夫和诊所采用AI。相反,结果表明需要更好地了解人类和AI怎么互动,并设计精心校准的办法来提高而不是损害人类的表现。
AI“助手”尚难预测
鉴于影像科被认为是能得到AI最大助力的临床医学领域,本次研究结果颇具代表意义。
此次发现中值得注意的是,在放射科,AI以令人惊讶的方式产生着妨碍人类大夫的表现。
例如,与研究人员预期相反,放射科大夫有多少年的经验、他们是否特意从事胸部放射科,以及他们之前是否使用过AI设备等因素,并不能可靠地预测AI工具对他们工作表现的妨碍。
另一项挑战普遍观点的发现是:基线表现不佳的临床大夫,并不能持续稳定地从AI中得到帮助。总体而言,不管有或没有AI,基线表现较低的放射科大夫的表现依然较低。关于基线表现较好的放射科大夫来讲也是这样——不管有没有AI,他们的总体表现始终良好。
但能够确信的是,更准确的AI提高了放射科大夫的表现,而水平普通的AI则会降低人类临床大夫的诊断准确性。
这一发现的重要意义也在于:在临床部署之前,必须测试和验证AI工具的性能,以确保劣质AI可不能干扰人类临床大夫的推断,从而延误患者病情。
妨碍临床医学将来
临床大夫拥有不同水平的专业知识、经验和决策风格,于是确保AI能反映这种多样性,关于有针对性地实施治疗至关重要。个体因素及变化,应成为确保AI进步的关键,而不是干扰并最终妨碍诊断的因素。
故意思的是,这一发现并没有解释AI为何会对人类临床大夫的表现产生不同的妨碍,但随着AI对临床医学的妨碍越来越深远,理解其中缘故就显得至关重要。对于这一点,AI专家还是在努力。
研究团队补充讲,下一步,放射科大夫与AI的交互,应该在模拟现实场景的实验环境中展开测试,测试结果需要反映实际患者群体的事情。而除了提高AI工具的准确性之外,培训放射科大夫去及时检测不准确的AI、审查并质疑AI工具的诊断,也很重要。
换言之,在AI帮你之前,你需要先提高自身。
来源:中国科技网