AI 诊疗为何还停留在实验室?数据是硬伤

想象一下:在未来的某一天,如果 AI 诊疗成为了现实,你就能直接在医院用电脑看病了。通过化验的数据,系统很快就给了你一个诊断结果,让你乖乖去开药吃药,甚至决定要不要手术……虽然这个过程听上去很便捷也很美好,但要抵达 AI 诊疗的乌托邦,实际上并没有那么简单,且不论它的砖瓦尚在建设当中,要走向乌托邦的路途,同样没有想象中的容易。

停留在实验室里的 AI 诊疗

AI 诊疗的用户群体并不只局限于辅助医生,按照服务群体的不同,可以分为四个层面:

回复患者咨询; 辅助导诊人员、药店人员、医疗在线客服; 基层医生及全科医生的临床辅助决策; 面向医生的患者康复跟踪。

而以上功能要和 AI 诊疗扯上关系,医疗创业公司如果没有大量的数据,要做成一个成熟的产品简直无从谈起。

创业公司在数据匮乏的情况下,目前的主要方式是和医院或数据中心合作,获取相关的数据。而这些数据主要的用途尚不是用于医院实战诊断,而仅仅是前期的积累工作——通过海量临床数据来优化算法。

人工智能诊断新星 Enlitic 的创始人 Jeremy Howard 曾一度表示,缺乏数据是制约它们发展的主要原因。而它在去年获得 Capitol Health 领投的 1000 万美元融资,通过后者提供的放射科数据完善诊断算法。通过海量医疗数据的挖掘,实现对医学影像的实时准确诊断,提供患病概率预测,并辅助医生决策。

而目前最为成功的 AI 诊疗系统非 IBM 的Watson 莫属了。根据东京系统与软件开发研究所 Watson Health Cloud 的软件工程师林雪婷此前向雷锋网的介绍,系统需要有可以进行合作的研究中心,以获取准确的数据来源。 Watson获取数据的做法主要是和美国第二大连锁药店 CVS 合作,获取用户的行为信息、临床数据、购药数据及保险信息等,或是和各地的实验室及研究中心合作。

然而,目前的研究工作主要还是局限在实验室中。即便有着 Watson 诊断白血病的成功案例,它距离临床实验还有一定距离。

数据的有效性

AI诊疗最大的硬伤在于为医疗研究所收集的数据,与真实问诊还有距离。

一个原因在于数据规模小。目前大部分科技公司的做法是,通过向医院机构获取数据,而予以定制化解决方案作为交换,但这些临床数据只能算是“小打小闹”。

雷锋网简单为大家算笔帐:仅仅在英国,每天就有接近200人无法看到明天的英国雨景(顺手一黑)。而到2020年,全球因AMD(一种因糖尿病继发的视网膜病变)而失明的人将达到2亿人。

但是,就算是谷歌DeepMind和英国百年老医院 Moorfields这样的强强联手,到目前的训练数据也只能达到 100 多万张匿名扫描图。这样一对比,独立医院所能提供的数据和全球患者相比简直是沧海一粟。而与此同时,对于疾病的数据获取就会受到地域甚至是病种的局限,这就让数据的有效性打了个折扣。

另一个问题在于数据的质量有待提高。电子化程度不够,数据采集方式良莠不齐、缺乏标准体系及结构化程度低的数据来源,更让临床试验带来了困难。

医疗数据不像金融数据一样,颗粒度和专业度已经比较成熟,目前医院的 HIS及 EMR 的程度还远远不够。“数据的质量是有效分析的基础,目前数据清洗工作占据了太多工作量,终究还是质量的问题。”树兰医院 CEO 郑杰如是说。他认为,使用医院信息系统的多为平均年龄较大的医生,对接纳最新信息系统的排斥度较高,且没有进行数据分析的迫切动力,因此“也就很难建立优秀的数据结构和数据质量” 。

雷锋网询问了几位一二线医院的医生,他们表示目前医院并没有引入相关的人工智能诊断设施,因为准确率并不乐观,尚处于观望状态,但不排除“在法规允许的情况下,将人工智能诊断做为辅助诊断。”

康夫子 CEO 张超对雷锋网表示,“目前市面上的诊断(做了很多年的专家系统),主要还是基于症状,少数能加入化验数据,但实际上,病史、用药、诱因等等都需要逐步学习。”化验的数据,更多的是做为一个当下的参考,而医生的“望闻问切”,则是对症状、诱因、病史、用药史等多个维度的综合考量。而数据的质量不佳,必然会阻碍人工智能的学习。

除却数量和质量外,法律的缺失也给数据的有效性打了个问号。

且不论这些到手的数据质量的信息化水平如何,更不要说此前,DeepMind 因为和 NHS 达成了每年160万的数据交换而引致舆论攻击了。而苹果在最新的规范中同样不允许开发者将数据存储在 iCloud 上,也是科技公司为了规避泄漏数据伴随而来的风险所做的规范。

截至现在,国内外都没有相应的 AI 诊疗相关法规,对于相关的责任主体及就诊流程,也缺乏一个明确的规范。目前国外第三方只能根据 HIPPA 协议使用个人数据的统计信息,这个颁布于 1996 年的医疗保险携带和责任法案旨在保护患者隐私和健康有关的电子数据,并且让数据的交换过程尽可能标准化。

HIPAA 的安全原则所定义的技术保障并不要求使用某一项具体的技术,而是一个可调整的框架,要求机构为了保护数据安全,尽可能多地采用适宜的技术,而这些安全方案需要实现“检查控制、信息完整、数据传输等” 多种要求。

医学数据出于隐私的顾虑,通常不可能大范围地进行分享,而囿于人们对病痛的天然排斥,对于患病的化验数据自然更是不愿意向他人“分享”的,各家医院的“信息孤岛”问题又加剧了这一现状。

小结

简单说来, AI 诊疗未能快速发展的主要原因,在于数据的数量和质量在目前阶段尚不足以支持真实问诊环节。诊疗是一个非常个性化及私人化的活动,要让就诊数据得到大规模的开放和运用,除了在基于语义的自然语言处理上进行大数据分析外,也需要法律的支持和保护。

这样,医疗大数据才能在有效性上真正服务于人工智能的探索,为 AI 诊疗提供帮助和支持,说不定在不远的未来,我们就能抵达乌托邦,享受到电脑看病的便利了。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2016-09-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

盘点2015年互联网创业市场十大特点

本主要以这上百只团队为数据来源进行统计分析,总结出2015年互联网创业市场的十大特点: 80后是创业主力军 ? 创业者主要以30-40岁人群为主,占比高达45...

2979
来自专栏ATYUN订阅号

AI将会给教育带来什么?

人工智能在最近几年很火,那人工智能到底能做些什么呢?教育又将会迎来怎样的变革呢?以下是科大讯飞研究院北京分院副院长付瑞吉的思考。 《科学》杂志预测,到20...

3095
来自专栏新智元

【Science】脚踏“两条船”的科学家们正在走向成功

1990年,Srinivas Tadigadapa开始接受科研训练,当时他憧憬未来成为一名工程学科的教授。然而,当经过7年的博士生与博士后生涯之后,他觉得自己应...

2863
来自专栏邱翔的终身学习

《麻省理工科技评论》2017年十大科技突破

3548
来自专栏AI科技评论

【业界】Marc Andreessen 访谈(下):软件能否颠覆传统教育业

static1.squarespace 计算机和互联网真的能改变教育产业吗?几十年来,老师、校长和科技人员想出各种办法,希望能用计算机提升教学技能,效果甚微。 ...

3506
来自专栏玉树芝兰

你需要补哪些核心能力?

毕业前,着力打造三种核心能力,让你在人群中脱颖而出,远离被人工智能淘汰的担忧和烦恼。

882
来自专栏SIGAI学习与实践平台

AI时代大点兵-国内外知名AI公司2018年最新盘点【完整版】

据腾讯研究院统计,截至2017年6月,全球人工智能初创企业共计2617家。美国占据1078家居首,中国以592家企业排名第二,其后分别是英国,以色列,加拿大等国...

2344
来自专栏量子位

北航机器人研究所名誉所长王田苗:人工智能与机器人的发展趋势 | 北大AI公开课笔记

792
来自专栏腾讯大讲堂的专栏

2017最新设计趋势 & 流行人设 , 你还看得懂吗?

导语 | 四大设计趋势从社会角度出发,延伸出四大流行人设,并从色彩,材质,表面处理(即color,Material,Finish,简称“CMF”)角度将四个趋势...

3658
来自专栏企鹅号快讯

隐藏在人工智能下的危机,你看到了么

前段时间刷屏的人工智能机器人AlphaGo zero能够摆脱人类的知识自学成才,这完全颠覆了我们对机器人的认知,现在有更多人对它们流露出担忧的情绪,认为自己在不...

2097

扫码关注云+社区