JAMA 杂志:如果AI诊断模型故意“使坏",临床医生会被糊弄吗?于是,有人搞了一场临床试验...

这篇具有很好参考价值的文章主要介绍了JAMA 杂志:如果AI诊断模型故意“使坏",临床医生会被糊弄吗?于是,有人搞了一场临床试验...。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

20231219日,JAMA Netwok 发表了一篇名为《评估AI在住院患者诊断中的影响》的随机临床调查研究。该研究发现,当故意给医生呈现有偏倚的AI诊断结果时,医生可能被AI欺骗导致诊断准确性降低11.3%在医疗保健中使用的AI是一把双刃剑,它们既可以提高的诊断决策能力,也可能让情况变得更糟。

JAMA 杂志:如果AI诊断模型故意“使坏


2023年人工智能可谓出尽风头。美国的一名女士通过ChatGPT诊断出了她4岁儿子患的罕见疾病,而之前17名医生都未能发现问题所在。前段时间,人工智能(Chatgpt)甚至被列入Nature期刊发布的十大年度人物榜单。近年来AI在临床辅助诊断领域也迅速扩张,已经实现了AI基于胸部平片诊断肺炎、基于眼底图像诊断糖尿病和病理切片诊断皮肤癌等技术。

然而,AI并不总是充当神来之笔。由于AI的诊断能力是人为地投入临床数据而训练出来的,如果训练数据本身存在偏倚,得到的结果也会呈现系统偏差。例如:给AI输入包含女性漏诊的心血管疾病的数据,AI就会认为女性本身不易患病,进而在临床应用中偏向于对男性作出心血管疾病的诊断。

为了尽可能避免这种情况发生,美国FDA要求在医疗保健中使用的AI除了能出疾病诊断外,还要附带解释,以便临床医生就可以评估AI结果的可靠性。

然而,AI真的能提高临床诊断的准确性吗,面对带有偏倚解释的AI模型,临床医生又能否识破AI的分析过程呢。

为回答此问题,密歇根大学(U-M)的计算机科学团队和内科学团队联合开展了一项随机临床案例调查研究,通过让医生在AI辅助下进行临床诊断来观察偏倚的AI模型以及附带解释的AI模型对诊断准确性的影响。

AI和临床医生切磋切磋

该研究拿出了45个急性呼吸衰竭住院患者的临床案例,每名医生会随机抽取9个案例作出诊断选择(肺炎、心衰、慢阻肺选其一),并被按照1:1的比例分配到使用有解释的AI组和无解释的AI组。

在这9个案例中,案例12由医生自行诊断,用于计算基线诊断正确率。案例3~案例8中随机抽取一半由标准AI模型辅助、一半由偏倚的AI模型辅助,用于反映有偏倚的AI对正确率的影响。经过事先测定标准AI的诊断准确率为75%,而偏倚AI70%。最后案例9则设计为故意给医生提供正确的诊断的原因和解释参考,以反映理想条件下的最高诊断正确率。

JAMA 杂志:如果AI诊断模型故意“使坏

从研究设计图来看,研究通过两次随机,实现了对两种不同干预措施的探究(有/AI解释、标准/偏倚AI),可谓是巧妙。

虽然研究设计上有些复杂,但统计分析方法主要为计算诊断准确率及其95%CI,以及两组间率的比较。

20224月至20231月期间,研究共在美国13个州调查了457名临床医生,平均年龄34岁,57.7%为女性。其中231人被分配到有解释的AI组,226人被分配到无解释的AI组。

“聪明的AI只帮小忙,笨的AI捅大娄子”

首先,临床医生在没有AI辅助下的基线诊断准确率为73.0%(95% CI,68.3%-77.8%)。这一准确率介于标准AI(75%)和偏倚AI(70%)之间。

JAMA 杂志:如果AI诊断模型故意“使坏

当向临床医生提供没有解释的标准AI时,临床医生的准确性比基线提高了2.9%(95% CI,0.5%-5.2%),而看到有解释的标准AI后,准确性比基线提高了4.4%(95% CI,2.0%-6.9%)。当临床医生得到研究提示后,准确率达到最高,为81.1%(95%CI,76.9%-85.4%)。

在另一组比较中,当给医生提供有系统性偏倚但无解释的AI结果后,临床医生的准确性比基线降低了11.3%(95% CI,7.2%-15.5%);而提供有偏倚的AI 模型预测和解释后,临床医生的准确性比基线降低了9.1%。两种情况下的准确率差异不明显(2.3%,95%CI,-2.7%-7.2%)。

后记

评估AI临床诊断的文章并不少,但少有研究能采用多中心随机案例对照设计直接拿AI和医生对比诊断正确率,而且样本量达到了近450名医生。JAMA同时还上线一篇社论来评价该研究的结果,感兴趣的朋友可以进一步检索阅读。

这项研究结果中,标准AI确实提高了医生的诊断率,但仅有2.9%的提升,而一旦面对有偏倚的AI,诊断率便明显下降。这说明AI对临床诊断的帮助仍有局限性,临床医生如果依赖有偏倚的模型,就可能会放大现有的偏倚,导致错误诊断的风险升高。另一方面,提供偏倚AI的解释本是为了让临床医生识别模型的错误,但遗憾的是提供解释并没有导致诊断率的显著恢复。

作为人类科学技术的革命性成果之一,AI无疑是强大且高效的。但考虑到临床诊断关乎患者的生命安全,即使是1%的诊断率差异,放在真实世界中可能都会产生不小的影响。幸运的是,目前AI在临床决策中仍仅被允许作为辅助诊断的工具,真正下诊断的权力仍在临床医生手上。

参考资料:

1. Jabbour S, Fouhey D, Shepard S, et al. Measuring the Impact of AI in the Diagnosis of Hospitalized Patients: A Randomized Clinical Vignette Survey Study. JAMA. 2023;330(23):2275–2284.

2. Khera R, Simon MA, Ross JS. Automation Bias and Assistive AI: Risk of Harm From AI-Driven Clinical Decision Support. JAMA. 2023;330(23):2255–2257. doi:10.1001/jama.2023.22557.

本公众提供各种科研服务了!

一、课程培训

2022年以来,我们召集了一批富有经验的高校专业队伍,着手举行短期统计课程培训班,包括R语言、meta分析、临床预测模型、真实世界临床研究、问卷与量表分析、医学统计与SPSS、临床试验数据分析、重复测量资料分析、nhanes、孟德尔随机化等10余门课。如果您有需求,不妨点击查看:

发文后退款:2024-2025年科研统计课程介绍
文章来源地址https://www.toymoban.com/news/detail-834038.html

到了这里,关于JAMA 杂志:如果AI诊断模型故意“使坏",临床医生会被糊弄吗?于是,有人搞了一场临床试验...的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 临床决策曲线分析如何影响预测模型的使用和评价

    目前,临床决策曲线分析(clinical decision curve analysis, DCA)在业界已经被超过1500文献使用,也被多个主流的临床杂志所推荐,更被写进了临床预测模型撰写标准(TRIPOD)中,但是许多预测模型的文章却仅仅把它当做另外一个模型评价的指标,显然是没有完全了解DCA对于预测模

    2023年04月23日
    浏览(67)
  • 二分类结局变量Logistic回归临床模型预测—— 外部数据集验证

      1. 介绍 2. 基线特征 3. 单因素多因素logistic回归分析及三线表 4. 构建临床列线图模型 5. 模型评价 6. 外部数据集验证 7. 另一种发文章的办法,分训练集和测试集,分析上述3-6节的内容 外部数据集验证,就是找一个别的数据集,可以是别家医院的,也可是数据库的,但是前提

    2024年02月12日
    浏览(48)
  • 使用微调大语言模型解析肌肉骨骼疼痛疾病的临床健康记录

    论文下载地址:https://www.thelancet.com/journals/landig/article/PIIS2589-7500(23)00202-9/fulltext 目的:使用经过微调的大型语言模型(LLM)来解析患有肌肉骨骼疼痛障碍的临床记录,提取疼痛的特征(如部位和急性程度)。 方法:收集了26551份含有“疼痛”一词的患者记录,由专业人员手动

    2024年01月20日
    浏览(35)
  • 你的个人AI助理"Pi"来了

    还记得之前的文章《不要老盯着ChatGPT,这几家公司的产品同样不容小觑》提到的Inflection AI公司吗?通过其官方推文了解到,前期我们关注的个人AI助理有了新的进展,Pi开始对外发布。 Pi 是一种 AI,一种旨在提供友善和帮助的新型计算机程序。为了帮助它了解世界,Pi 已经在

    2024年02月02日
    浏览(21)
  • Topic 13. 临床预测模型之一致性指数 (C-index)

    C-index,C指数即一致性指数(concordance index),用来评价模型的预测能力。C指数是指所有病人对子中预测结果与实际结果一致的对子所占的比例。它估计了预测结果与实际观察到的结果相一致的概率。c指数的计算方法是:把所研究的资料中的所有研究对象随机地两两组成对子

    2024年02月11日
    浏览(23)
  • R数据分析:临床预测模型中校准曲线和DCA曲线的意义与做法

    之前给大家写过一个临床预测模型:R数据分析:跟随top期刊手把手教你做一个临床预测模型,里面其实都是比较基础的模型判别能力discrimination的一些指标,那么今天就再进一步,给大家分享一些和临床决策实际相关的指标,主要是校准calibration和决策曲线Decision curve analysi

    2024年02月02日
    浏览(27)
  • 基于美日 627 例患者的临床数据,谷歌证实 AI 辅助肺癌筛查的群体有效性

    2024 年 2 月,国家癌症中心基于肿瘤登记及随访监测最新数据,形成了《2022年中国癌症发病率和死亡率》报告。报告显示,在我国,肺癌仍是恶性肿瘤发病和死亡的首位原因。 尽管医学界对于肺癌的关注度与日俱增,但在肺癌诊疗领域仍存在大量诊断延误、过度治疗等临床难

    2024年04月28日
    浏览(27)
  • 聊聊大模型"打字机"效果的背后技术——SSE

    转载请注明出处:https://www.cnblogs.com/zhiyong-ITNote SSE:Server Sent Event;服务器发送事件。 Server-Sent Events(SSE)是一种由服务器向客户端推送实时数据的技术。它是构建基于事件的、服务器到客户端的通信的一种方法,特别适用于需要实时更新和推送信息的应用场景,如实时通知

    2024年03月27日
    浏览(37)
  • 2023研究生数学建模E题思路+模型+代码+论文(持续更新中) 出血性脑卒中临床智能诊疗建模

    目录 E题思路 出血性脑卒中临床智能诊疗建模 完整思路代码模型论文获取见文末名片 完整思路代码模型论文获取见此 一、 背景介绍 出血性脑卒中指非外伤性脑实质内血管破裂引起的脑出血,占全部脑卒中发病率的10-15%。其病因复杂,通常因脑动脉瘤破裂、脑动脉异常等因

    2024年02月08日
    浏览(35)
  • 故障诊断模型 | Maltab实现GRU门控循环单元故障诊断

    故障诊断模型 | Maltab实现GRU门控循环单元故障诊断 利用各种检查和测试方法,发现系统和设备是否存在故障的过程是故障检测;而进一步确定故障所在大致部位的过程是故障定位。故障检测和故障定位同属网络生存性范畴。要求把故障定位到实施修理时可更换的产品层次(可

    2024年02月08日
    浏览(28)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包