专栏首页AI掘金志韩国科研团队:超90%的医学影像AI论文未在临床环境进行严格验证

韩国科研团队:超90%的医学影像AI论文未在临床环境进行严格验证

几乎所有在研究期间发表的医学影像AI算法性能的评估实验,都是为验证技术概念的可行性而设计,没有对AI算法在实际临床环境下的性能进行严格验证。

作者 | Dong Wook Kim

雷锋网消息,近年来,人工智能在医学中的应用令人兴奋,但当前的一个问题是人工智能算法缺乏适当的临床验证。近日,韩国泰安郡卫生中心的Dong Wook Kim和蔚山大学医学院放射学研究中心的Hye Young Jang、Kyung Won Kim、Youngbin Shin以及Seong Ho Park(通讯作者)等几位医学博士发表了一篇论文,来评估AI算法性能研究实验的设计特征,这些AI算法基于医学影像来提供诊断决策。

以下为论文详细内容,由雷锋网AI掘金志学术组小烟与卡卡编译。关注“AI掘金志”公众号,在对话框回复关键词“韩国”,即可获取原文内容和参考文献。

研究团队通过检索PubMed MEDLINE和Embase数据库,以确定2018年1月1日至2018年8月17日期间发表的原始研究论文, 评估所选择的文章有以下几个条件:1)该研究是否使用外部验证而不是内部验证,并且在外部验证的情况下,是否收集验证数据;2)是否使用诊断队列设计而不是诊断病例对照设计;3)是否来自多个机构;4)是否以前瞻性的方式。

这些是在现实世界中用于临床验证AI性能的基本方法学特征。 确定了符合上述标准的研究后,研究团队将出版期刊分为医学期刊和非医学期刊, 然后,比较医学和非医学期刊之间的结果。在516项符合条件的已发表研究中,只有6%(31项研究)进行了外部验证。31项研究均未采用所有三种实验设计条件:诊断队列设计,包含多个机构,以及用于外部验证的前瞻性数据收集。 医学和非医学期刊之间没有显着差异。

研究团队得出的结论是:几乎所有在研究期间发表的医学影像AI算法性能的评估实验,都是为验证技术概念的可行性而设计,没有对AI算法在实际临床环境下的性能进行严格验证。

引言

由于深度学习技术的进步,人工智能(AI)在医学中的应用引起了很多关注(1)。值得注意的是,人们对使用AI进行各种医学影像的诊断分析非常感兴趣,主要是通过卷积神经网络,一种被称为“计算机视觉”的深度学习技术(2,3,4)。与任何其他医疗设备或技术一样,通过充分设计的研究确保患者的利益和安全,同时避免任何无意的危害,在临床实践中采用AI算法进行全面临床验证的重要性不容小觑(5,6,7,8,9,10)。

值得注意的是,在本研究中使用术语“验证”来表示确认,就像在医学领域中使用的那样,而不是在机器学习领域中用作技术术语“算法调整”的意思(11,12)。AI技术的临床验证可以在不同的水平上进行:诊断性能,对患者结果的影响以及考虑 cost-benefit 和 cost-effectiveness 的社会效能(societal efficacy)(11,13)。正确评估使用深度学习分析医学图像的高维AI算法的真实临床性能需要适当设计的外部验证。建议外部验证使用重新招募的患者或提供训练数据的机构以外的其他机构收集的足够大小的数据集,以充分代表AI所应用的现实临床环境中的目标患者表现谱(即患者人口统计学和疾病状态的所有相关变化)(10,12,14,15,16,17)。此外,使用来自多个外部机构的数据对验证非常重要,以验证算法的泛化能力,应对各种医院系统的预期变异性(14,16,17,18)。复杂的数学/统计AI模型,例如分析医学影像的深度学习算法,需要大量的数据用于算法训练;制作和注释这种量纲的医学影像数据资源尤其紧张和困难(19,20)。因此,开发此类AI算法的个体可能依赖于任何可用的数据(方法上称为便利病例 - 对照数据 convenience case-control data),尽管这些可能易于发生选择偏倚和人为疾病流行(artificial disease prevalence),并且可能不能很好地代表实际临床设置(12,19,20)。由于AI算法的性能很大程度上取决于其训练数据,因此存在真正的风险,即AI算法在实际操作中可能表现不佳,并且在一个机构训练的算法在应用于另一个机构的数据时提供不准确的结论(9,16,17,18,19,21,22)。

尽管人工智能在医学中的应用令人兴奋,但人工智能算法缺乏适当的临床验证似乎是当前的一个问题,这种现象被称为“数字例外论”(digital exceptionalism)(16,23,24)。例如,计算机科学家通常会在“测试”数据集上评估AI算法的性能;然而,这些通常是原始数据集的随机子样本,因此,不可能对临床表现进行充分的外部验证(10,16,20,25)。据我们所知,显示这一显著问题确切程度的具体数据很少。

本研究旨在评估最近发表的研究的实验设计,这些研究报告了分析医学影像的AI算法的性能,并确定研究设计是否适合于验证AI算法在实际临床中的表现。本研究中提到的研究实验设计对于验证AI的真实临床表现至关重要,但对于验证概念技术可行性研究而言则过多(14)。由于并非每项关于使用AI进行医学诊断的研究都是为了验证实际的临床表现(14),本研究的目的并不是直截了当地判断已发表研究的方法学适用性。

材料和方法

文献检索与筛选

我们对PubMed MEDLINE和Embase数据库进行了全面搜索,以确定调查AI算法性能的原始研究文章,该算法通过分析医学影像来提供诊断决策(例如诊断或发现特定疾病,又或者是提供信息以根据特定疾病将患者分类为亚组疾病状态、亚型、严重程度、阶段、治疗反应、预后和风险)。我们使用以下搜索查询: (“artificial intelligence” OR “machine learning” OR “deep learning” OR “convolutional neural network”) 和 (diagnosis OR diagnostic OR diagnosing) 和 (accuracy OR performance OR “receiver operating” OR ROC OR AUC)。我们将检索时间限制为2018年,以获得及时的结果(文献检索更新至2018年8月17日)。印刷出版物和电子出版物都包括在内。

在删除两个数据库之间的重叠之后,由两名独立评审员筛选文章的资格。在一次会议上重新评估了任何程度模糊或在两位审稿人之间产生意见分歧的文章,并邀请了第三位审稿人来达成一致。案例报告,评论文章,社论,信件,评论和会议摘要/程序被排除在外。我们的检索仅限于人类类别和英语语言的研究。

我们将医学图像定义为放射图像和其他医学图像(例如,内窥镜图像,病理图像和皮肤图像),并且没有考虑任何在时间上绘制一维数据的线条图,例如,心电图和A超。研究调查了结合医学图像和其他类型临床数据的AI算法。没有考虑除直接诊断决策之外的图像相关任务的AI算法,例如图像分割,定量测量和图像采集/重建的增强。

数据提取

两位评审员通过以下标准评估了符合条件的文章的全文:1)该研究是否使用外部验证而不是内部验证,并且在外部验证的情况下,是否收集验证数据,2)是否使用诊断队列设计而不是诊断病例对照设计,3)是否来自多个机构,4)是否以前瞻性的方式。这些是在实际操作中推荐用于AI性能临床验证的基本方法学特征(10,11,12,14)。这些问题中得到更多“是”的答案,则算法性能的实际应用越普遍。如果一项研究以多种方式验证其AI性能,那么如果至少有一项分析使用了这些设计条件,则该研究对上述每个问题都会为“是”。我们宽泛地定义了“外部”,包括训练数据和验证数据来自不同机构,以及从同一机构但在不同时间收集训练和验证数据的情况,即使后者在严格意义上不被视为外部验证(10,16,25)。

对于在同一机构收集训练和验证数据集的研究,如果验证数据集的临床设置和患者资格标准与训练数据集分开指定,则验证数据仅被视为外部数据。这是为了确保验证数据不仅仅是原始大数据集的分割子样本,因为这会产生一种内部验证(25)。诊断性队列设计指该研究首先定义临床环境和患者资格标准,然后连续或随机招募患者以进行特定诊断程序,例如AI算法应用(15)。相反,诊断病例对照设计将分别收集疾病阳性和疾病阴性受试者(15)。诊断病例对照设计容易出现疾病谱偏倚,这可能导致对诊断性能的夸大估计和非自然流行,从而产生诊断性能的不确定性(12,26)。

另外,我们注意到每篇文章的主题领域(例如,放射学,病理学和眼科学)并将出版期刊分类为医学或非医学期刊组。这些期刊主要根据期刊引用报告(JCR)2017版本类别进行分类。对于未包括在JCR数据库中的期刊,如果期刊的范围/目标包括任何医学领域或主编是医生,我们会提及期刊网站并将其归类为医学。对于任何程度模糊或在两位独立评审员之间产生意见分歧的文章都在包括第三位评审员在内的共识会议上重新评估。

结果测量和统计分析

我们计算了进行外部验证的研究百分比。对于报告外部验证结果的研究,确定了涉及诊断队列的实验设计,包含多个机构以及外部验证的前瞻性数据收集的研究比例。使用Fisher精确检验对医学和非医学期刊的结果进行了比较。 p <0.05被认为是显着的。

结果

在去除PubMed MEDLINE和Embase之间的重叠后最初收集的2748篇文章中,最终有516篇文章符合条件(图1,表1)。

表2列出了具有每种实验设计的文章的比例,包括医学和非医学期刊的分类。 只有6%(516个中的31个)进行了外部验证。 所有外部验证研究均未采用所有三种实验设计,即诊断队列设计,包含多个机构和前瞻性数据收集。 医学和非医学期刊之间没有显着差异(表2)。

讨论

我们的研究结果显示,最近发表的研究报告了用于医学影像诊断分析的AI算法的性能,但没有严格验证AI算法临床性能的设计特征,这证实了主要期刊最近提出的担忧(23,24)。我们的研究没有考虑人工智能研究的各种详细的方法学质量测量(14),而只是评估了主要的宏观研究。因此,AI算法临床验证的不足程度可能更为显著。

然而,应该指出的是,这些结果并不一定意味着已发表的研究各种方法设计不充分。本研究中使用的四个标准是旨在评估AI算法在实际临床表现的基本要求。对于仅仅研究技术可行性的研究来说,这些要求将是过度的(14)。读者和研究者都应该区分概念验证技术可行性研究和验证AI临床表现的研究(14),并且应该避免错误地考虑不符合上述标准的研究结果作为临床验证的合理证据。

最近发表了一些相关的方法指南(11,12,14)。我们怀疑在本研究中分析的大多数研究可能是在这些方法指南可用之前构思或执行的。因此,旨在评估医学AI算法的临床性能研究的实验设计可能在未来得到改善。

在我们的研究中没有直接解决但值得一提的另一个问题是关于先验分析计划的透明度以及在验证AI算法的临床性能的研究中的所有结果的完整公布(6,11,14,27)。由于人工智能算法的表现可能因机构不同而有差别(16,17,18),一些研究人员或赞助商可能会倾向于选择性地报告有利的结果,这会导致漏报不利的结果。前瞻性登记研究包括先验分析计划,类似于干预临床试验的登记(例如,在https://clinicaltrials.gov),将有助于提高这些研究的透明度(27)。已经提出了诊断测试准确性研究的前瞻性登记,其中包括用于验证AI性能的研究(28)。学术期刊采用这一政策有助于提高验证AI算法临床表现的研究报告的透明度。

我们目前的研究有一些局限性。首先,研究数据的时效性很重要(29),因为人工智能是一个快速发展的领域,许多新研究正在发表,我们研究结果的有效期可能很短。但是我们希望很快医学AI临床表现的研究设计取得实质性进展。尽管如此迅速的变化,我们的研究仍然是有意义的基线,可以进行比较以确定未来是否有任何改进,因为这里分析的大多数已发表的研究可能早于最近发布的相关方法指南(11, 12,14)。其次,虽然本研究仅评估了AI诊断性能的研究报告,但AI的临床验证延伸到评估AI对患者预后的影响(12,30)。然而,据我们所知,关于AI应用如何影响患者预后的研究很少,并且系统地审查已发表的研究是不可行的。

本文分享自微信公众号 - AI掘金志(HealthAI),作者:Dong Wook Kim

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-03-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 医疗AI如何证明自己五年后的价值? | CCR 2019圆桌内容精选

    今年,无论是从资本市场还是在应用端,医疗AI都在慢慢冷静下来。“AI拉开第四次工业革命序幕”的这一论断,为时尚早。但是,我们需要把AI看做是一个智能化的过程,任...

    AI掘金志
  • 一个 20 年 AI 老兵的创业自白

    他在模式识别、人工智能领域已经扎根20多年,是一位不折不扣的行业老兵;从创办天诚盛业,到成立眼神科技,二十年里,他一直为推动AI在安防等多场景的成熟商业化应用而...

    AI掘金志
  • 2020 年第一批 | 皮肤癌 AI 检测产品获 FDA “突破性设备”认定

    雷锋网AI掘金志消息,据CISION报道,AI创业公司3Derm宣布,旗下产品3DermSpot人工智能成像系统检测皮肤癌获得了两项FDA“突破性设备”认定。

    AI掘金志
  • 据调查,欧洲有40%的AI创业公司实际上并没有使用AI技术

    AI是当今科技领域中被滥用最严重的术语之一,一项新研究显然证实了这项技术已被大肆炒作宣传。

    AiTechYun
  • 普华永道:AI医疗离真正商业化还有三年 | 附报告PDF&小测试

    安妮 编译整理 量子位 出品 | 公众号 QbitAI 医疗观陈旧度测试:你的医疗观停留在多少年前? 你认为“医疗”的概念是什么? A. 生病后去医院就医查看病...

    量子位
  • 58同城旗下58到家计划在美国IPO;Lyft开源机器学习平台Flyte;京东宣布发行总价10亿美元的债券​|ITDaily

    蚂蚁金服副总裁、智能科技总裁蒋国飞宣布,蚂蚁区块链将开放平台技术能力给全行业,尤其是面向实体产业。同时,他表示,产业区块链已经开场,拐点即将到来。此前,蒋国飞曾...

    用户6543014
  • 你的AI模型有哪些安全问题,在这份AI攻防”词典”里都能查到

    目前,AI技术在人脸支付、人脸安防、语音识别、机器翻译等众多场景得到了广 泛的使用,AI系统的安全性问题也引起了业界越来越多的关注。

    量子位
  • 一位从后台转向AI的独白

    刚开始接触 AI 的时候会有这样的一些坑。第一个我把它叫做碎片化时间陷阱,大家一直以为碎片化可以学到很多东西,于是我也关注了一堆的AI 公众号,每天看一下公众号...

    逸鹏
  • 边缘族裔的声音缺席历史档案,机器学习能帮忙吗?

    即使是最官方的记录,关于历史的档案也常常会出错。例如,在南非结束种族隔离制度下的白人统治多年之后的十年中,该国学校使用的书籍仍然没有反映人们的经历。

    大数据文摘
  • 中国团队首次夺冠FPS游戏AI竞赛VizDoom,清华腾讯AI联手

    在荷兰刚刚结束的 IEEE CIG 计算智能与游戏大会上,清华大学张钹院士领导的人工智能创新团队 TSAIL 在第一人称射击类游戏《毁灭战士》(Doom)AI竞...

    量子位

扫码关注云+社区

领取腾讯云代金券