专栏首页AI科技大本营的专栏医学人工智能试验的三个阶段

医学人工智能试验的三个阶段


作者: Dr Luke Oakden-Rayner

编译: AI100

原文地址:

https://lukeoakdenrayner.wordpress.com/2016/12/27/the-three-phases-of-medical-ai-trials/


在一篇最近的博文中,我探讨了如何批判性地理解医学人工智能研究,把重点放在了这些实验与临床实践的相关性。从那以后,我意识到我们没有一个简单清晰的方式来讨论这种观点:有些研究在临床使用上仍有一段很长的路要走,而有些已经非常接近于向实践转化了。

读者中的医学研究者可能会认识到这个概念,因为这是一个医学已经解决了的案例。

可以看到,临床试验根据结果对临床实践的有用性被分成了几类。这些被称为医学研究阶段的小组,反映了从早期研究到临床转化的共同路径,而对于从临床创新到想要被医生和监管机构所接受,这几乎是必须的路径。广义上讲,涉及人类的大多数研究(我将会用药物试验来阐述这一概念)都属于这三种类型之一。

阶段I 是第一次安全检查。药物在一小组人里面进行测试,确保不会出现糟糕的情况。在这个阶段我们几乎不考虑药效(药物效果如何)。我们仅仅想知道它不会导致死亡。如果我们得到了它产生的效果很好的提示,这会很棒,但这不是研究的最初动机。

阶段II 是彻底地评估安全性。这需要一个更大的组来找到罕见的副作用。由于采样的增大,我们可以开始寻找一些有效性的证据,但这还不足以证明临床的可使用性。

阶段III 是一个困难的、昂贵的、重要的阶段。该研究的设计目的是明确该药物的疗效。这通常意味着很多很多的人要服用很长一段时间。这些方法和分析需要能够经得住FDA或者类似监管机构的严格审查。

在专业上还需要临床前试验(动物模型)和阶段4试验(一旦药物有效后的跟进),但阶段I-III是把想法变成治疗方法的阶段。

我认为我们在医学人工智能研究中有一个很相似的进程,因为我已经发现几乎所有的研究都可以适应几个明确的类别。我非常不确定我在下面呈现的系统是否严谨或者覆盖了许多的边界情况,但是在设计和理解这个领域的研究时它应该是一个有用的框架。


人工智能试验

从人工智能试验框架反映出其他临床试验的结构是有意义的。这三个阶段的概念是常用的、直观的,并且可能在一定程度上弥补医学和人工智能研究员之间的理解差距。要是您的崭新的最先进的人工智能系统为病人已经准备好了,这甚至就可以更容易的使医生和监管机构信服。

临床试验和人工智能试验的关键区别在于阶段I和阶段II,安全性并不是人工智能系统的关注点。这些系统在第III阶段之前根本不会应用于患者护理,因此对人类没有风险。这就是在伦理委员会时我经常谈到的“不可忽视的风险研究”。

请注意下面的框架旨在用于软件系统,而不是诸如手术机器人的物理系统。这些系统将会存在相似的框架,但是具体到细节会有很大的差异。


阶段I:

概述:本阶段将尝试确定哪些是不可行的任务,它们的预期模型没有足够的前景去保证进一步研究。在当前阶段下看起来很有前景的任务,会在下一研究阶段指导模型设计选择和通知样例集选择。

研究设计:该人工智能系统在一个小型样例集回顾性样例集(retrospective cohort)上进行训练和测试。这意味着数据是在过去由于其他原因而收集的,研究员只是用它来尝试验证他们想要解决的任务的相关因素。机器学习研究中的典型案例就是使用一个公共数据集。

通常样例集的大小处在二十到几百之间,因此预计不会有足够大的精确性来表征模型性能或者宣称相关功效性。

样例集与模型所针对的人群相似,但很少是完全一样的。通常会做出选择以简化实验,而这些选择往往会妨碍研究结果的一般化。例如,医院病人作为一个数据集经常会被用到,因为这是容易获取的,尽管我们的目标是把系统应用到一般(非住院的)人群。样例集样例的选择中的决策者经常是没有受过相关培训的计算机科学家,而不是生物统计学家/流行病学专家/医学研究人员。

任务本身为了有助于分析也经常被简化。我们往往选择一个代替性任务(称之为替代端点surrogateendpoint),而不是试图一步到位去测量研究的最终目标。在我之前的博客中有一个替代端点的案例,是利用手术机器人来研究针体外转移装置的精确性和规律性,而不是在病人并发症的发生率上的影响。尽管前面的任务表现出了好的性能,但这不是系统能够执行人类工作的直接证据,在未经测试的系统上进行的实验可能会无法通过伦理委员会,因为它需要应用到病人身上。

成本:阶段I试验中的大多数花费集中在研究人员设计和训练模型的时间上。

转化应用时间:在临床试验中,我们可能期望在一个成功的阶段I试验和一个面向消费者的产品之间需要大约十年的时间。

举例:所有的医学深度学习试验(除了一个以外)。这些论文从高端研究员到本科生以每周几次的速度发表着。甚至那些使用了医学数据和临床目标的 Kaggle 竞赛也算此类。


阶段II:

概述:本阶段将会确定值得在第III阶段研究中追寻的观点。由于阶段III试验昂贵且耗时,阶段II试验旨在发现最具有前景的模型结构、目标以及患者群体。

研究设计:该人工智能系统是在一个足够大的样例集上进行测试的,样例集必须足够大,使得所设计的模型能够在其上达成最高性能。这个样例集应该密切反映目标人群,尽管有一些重大差异仍有可能存在。主要的混杂因子应该被说明,或者被明确确认和承认它们是不可控的。阶段II研究的样例集选择通常需要研究设计专家(生物统计学专家、流行病学专家)的帮助。

阶段II中人工智能试验的样例集大小可能数以万计或者更多。这比一般的阶段II的临床试验要大得多,满足了机器学习研究中的训练和测试样例集要求。如果你不知道怎么确定样例集的大小,这里有一个简单的法则:采用一般临床测试所需的样例集最小规模的两倍。

数据几乎总是回顾性的,但是任务本身将会非常类似于研究人员寻求自动化临床任务。

成本:阶段II试验的大多数花费集中在标注和处理大量的训练数据集上。在这阶段的模型设计的花费是变化的,取决于机器学习方法的新颖性。

转化应用时间:在临床试验中,我们可能期望在一个成功的阶段II试验和一个面向消费者的产品之间需要大约五到八年的时间。

举例:谷歌关于糖尿病视网膜病变的研究。这项研究是我见过的唯一一个在这个框架中可以称为阶段II的研究。训练了1.3亿张图片,系统测试超过了10000例。这个系统表现出了医疗专家的水准,应该精确的反映了临床性能(在误差范围内),因此可以合理地形成阶段III临床试验的基础。


阶段III:

概述:阶段III试验是为了证明临床的应用。 目标是展示系统是如何使在受控环境中的临床任务具有效性的。

研究设计:人工智能系统是在一个较大的潜在患者样例集进行测试测试,使其能够准确地反映目标人群。所谓潜在患者,意味着患者要在系统应用之前聚集,然后跟踪足够长时间来评估影响。 本研究目的在于证明医疗指标的变化,如患者治疗效果的提高或者临床护理成本的降低(在不增加伤害的前提下)。

在这个阶段样例集的选择是至关重要的,因为在临床实践中系统将只接受与研究样例集匹配的人群。在研究设计上投入了大量的努力,通常需要大量的专家工作几个月。

样例集的大小在阶段III是更加可变的,并且将阶段II研究得到的影响大小(size of the effects)作为指导。 阶段III对于一个特别有效的系统的实验可能比阶段II研究创建的人工智能模型更小。 也就是说,我个人认为,第一个III期人工智能系统试验必须取得压倒性的结果,以战胜医学研究中保守的偏好。

任务选择将反映系统的实际应用。 也就是说,系统所应用的任务必须与临床验收和监管验收所要求的任务一致。 同样,这需要与领域专家进行广泛的规划和讨论。

成本:在第III阶段临床试验中,主要的花费成本在于研究设计、样例集注册和管理,数据分析和出版成本。 由于计算机系统设计在阶段II实验期间大体上完成,在阶段III期间的机器学习成本应该是比较小的,尽管工程成本可能很高。

由于这些研究是前瞻性的,随访期必须足够长以获得所讨论的临床结果。 对于像心脏病发作等事件,这通常意味着多年的跟进。 像这样的研究的成本可能是巨大的。

转化应用时间:在临床试验中,我们期望在第三阶段临床试验成功与已经具备消费者的产品之间间隔大约在两到五年。 监管审批过程可能需要很长时间!

举例:没有深度学习系统进入第III阶段临床试验。

可以说,用于放射学的计算机辅助诊断(CAD)系统在过去已经经过了阶段III试验,特别是在乳房X线照相术中。这些系统属于一种较老(而且性能较差)的机器学习风格。这段历史可能使得深度学习系统的应用转化更加困难,因为关于CAD系统的阶段IV(后期部署)经历一直令人失望。


设置为兴奋阶段

在我看来,这种框架可以帮助解决一些我之前写作中提到的一些问题,特别是关于科学与公众和媒体的交流方面的问题。正如我描述的那些简单的分类可以预先识别一个人工智能系统对于临床转化是多么接近(或遥远),这将使大家更容易理解研究。

他们或许也可以帮助调整我们的期望。几乎没有临床研究使它通过整个系统,所以期望有一个类似的筛选过程是合理的。根据我们设法记录的更先进的临床试验,我们了解到,在第II阶段临床试验中只有18%的实验达到了第III阶段,并且第III阶段临床试验能取得成功的可能低于50%。

对于人工智能系统来说可能更糟糕,因为进入阶段I的障碍(特别是使用公共数据集)是如此之低。甚至可以直接地估计,在一千次人工智能试验中,只有不到一次的实验将会超越阶段I。我们每周可以看到出版的五到十篇医学人工智能的论文,但我们只能看到一次第II阶段的试验。

再泼一点冷水,根据估计,一般药物从实验室到投入市场平均需要经历多于十年,花费超过十亿美元。人工智能系统可能比这些实现更容易而且花费更便宜,但是我们真的没有任何证据去证明这一观点。没有人工智能试验进入到第III阶段,至少我没有发现。

最后,像这样的一个框架也可为研究人员提供一个清晰的路线图。以这些类型的实验为开端,然后转移到与这些实验类似的一些事物,最终你将有一个(有希望)获得医生和监管机构的关注系统。根据我的经验,计算机科学家和工程师经常发现这些种类研究设计的选择并不是显而易见,有一个粗略的指导对于如何从想法发展到医疗产品可能是有帮助的。

我的新年计划之一是试图限制我的博客文章的长度,这样可以使他们更易于消化理解,所以我将在它将要超多两千字之前结束这篇文章。

感谢你们的阅读和分享。

本文分享自微信公众号 - AI科技大本营(rgznai100)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2016-12-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 霍金去世!

    据 BBC 等多家外媒报道,知名物理学家史蒂芬·霍金已经去世,享年 76 岁。 霍金的家人在周三凌晨发表声明,证实他已在剑桥的家中死亡。霍金的孩子 Lucy ,...

    AI科技大本营
  • 古代荀子也懂AI?达芬奇的手术机器人有多神奇? 听浙大吴飞扒一扒人工智能的“古今中外”!

    整理 | 晶晶 西周的印纸造文、三国的木牛流马、希腊古城的黄金机器女仆……吴飞的演讲,一下子将人工智能的历史拉到了2000年前……原来用机器替代劳动的想法古已有...

    AI科技大本营
  • 万字长文详解如何用Python玩转OpenGL | CSDN 博文精选

    【编者按】OpenGL(开放式图形库),用于渲染 2D、3D 矢量图形的跨语言、跨平台的应用程序编程接口,C、C++、Python、Java等语言都能支持 Op...

    AI科技大本营
  • 【python入门系列课程 第十课 初识函数】

    本系列课程是针对无基础的,争取用简单明了的语言来讲解,学习前需要具备基本的电脑操作能力,准备一个已安装python环境的电脑。如果觉得好可以分享转发,有问题的地...

    用户7054460
  • Loadrunner 脚本开发-利用web_submit_data函数实现POST请求

    web_link()和web_url()函数都是页面访问型函数,实现HTTP请求中的GET方法,如果需要实现POST方法,可使用web_submit_form或...

    授客
  • 【图像增强】开源 | Deep SESR模型解决水下机器人视觉的同步增强与超分辨率问题

    为解决水下机器人视觉的同步增强与超分辨率(simultaneous enhancementand super-resolution,SESR)问题,本文提出了D...

    CNNer
  • 吴恩达AI战略三部曲之二,筹集1.5亿美元人工智能基金

    镁客网
  • JavaScript中的函数防抖与函数节流

    函数防抖(debounce)当调用动作过n毫秒后,才会执行该动作,若在这n毫秒内又调用此动作则将重新计算执行时间。

    刘亦枫
  • Linux下2号进程的kthreadd--Linux进程的管理与调度(七)

    内核初始化rest_init函数中,由进程 0 (swapper 进程)创建了两个process

    233333
  • 关于编译报错 语法错误 : “L_TYPE_raw” 的一个原因

    版权声明:本文为博主原创文章,欢迎交流学习 ...

    大菊观

扫码关注云+社区

领取腾讯云代金券