利用深度学习加速癌症研究

美国橡树岭国家实验室(ORNL)发布消息称,深度学习技术已被用于加速癌症研究。

尽管近几十年来在检测和治疗方面取得了稳步进展,癌症仍然是美国的第二大死亡原因,每年约有50万人因癌症去世。为了更好地认识和对抗癌症,医学研究者们开始借助癌症登记程序开展研究。这一全国性的组织网络可系统收集与美国癌症诊断、治疗和发病史相关的人口统计数据和临床信息。监测工作由国家癌症研究所(NCI)和疾病控制预防中心共同协作完成,目标是使研究人员和临床医生能够监测全国、各州各地方的癌症病例。

这些数据大部分摘自电子文本临床报告。这些报告必须由人工整理,因此需要历时很久才能被用于研究。例如,一份详细描述癌性组织的癌症病理报告在被录入登记系统之前必须先由多位专家审核。随着每年数百万份新报告的不断产生,信息负担不断加重。

美国能源部(DOE)橡树岭国家实验室(ORNL)健康数据科学研究所主任Georgia Tourassi表示:“手动模型是不可扩展的。我们需要开发新的工具,使其能够自动完成信息提取过程,真正实现美国癌症监测的现代化。”

自2014年以来,Tourassi团队一直在专注于开发一款能快速识别癌症报告中有价值的信息的软件,这种能力不仅可以节省时间,还可能揭示癌症研究中被忽视的一些方法。在尝试使用传统的自然语言处理软件试验后,该团队利用深度学习技术获得了最新进展,深度学习是一种机器学习技术,能够利用算法、大数据和图形处理器的计算能力来模拟人类的学习和智力。

借助于橡树岭计算机科学联合研究所(Oak Ridge Leadership Computing Facility)的超级计算机Titan,Tourassi团队应用深度学习技术从癌症病理报告中提取到了有用的信息。通过使用适当的数据集,该团队获得的初步成果证明了深度学习在癌症监测中的潜力。

自动数据工具的不断发展与成熟是美国“癌症登月计划”(Cancer Moonshot initiative)的目标之一,将使医学研究人员和政策制定者对美国癌症人群的具体现状获得空前认识,而过去的病例数据仅仅来自不到癌症患者总人口5%的临床试验患者。

Tourassi说:“我们目前是根据很小比例的癌症患者的治疗效果做出判断,而他们不能代表整个患者群体。我们的工作显示了深度学习的潜力,它可以判断癌症治疗和诊断方法的有效性,并让癌症患者更好地了解这些方法的现实效果。

开发一款不仅能够理解词义还能理解词语之间上下文关系的软件并非易事,人类需要通过多年的训练来发展这些技能。对于特定任务,深度学习技术能够将该过程压缩到几个小时。

通常可通过训练神经网络来实现语境创建。该神经网络是一个加权计算网络,能就如何正确执行任务提出明智的建议,如识别图像或处理语言命令,输入到神经网络的数据和选择性反馈信息为软件提供了决策依据。程序员很难弄清这一算法决策过程。Tourassi称,有了深度学习技术,用户只需要把文件内容导入,然后就能得到结果。它更像一个黑盒子,但这正是其吸引人之处。

图形处理器可通过同时快速执行多个深度学习计算进程来加速软件的学习过程。在最近两项研究中,Tourassi团队使用了加速器调整多个算法,并将结果与传统方法进行比较。通过使用国家癌症研究所的SEER项目提供的1976份病理学报告组成的数据集,Tourassi团队训练了一种深度学习算法,用来执行两种密切相关的信息提取任务。在第一项任务中,算法通过扫描每份报告的内容确定肿瘤的首发部位。在第二项任务中,算法识别的是肿瘤部位的偏侧性或肿瘤位于身体的哪一侧。

该团队建立了一个能够发现上述两项任务间共同点的神经网络,并称之为多任务学习,他们发现该算法的表现明显优于其他方法。Tourassi说:“这样的发现是有意义的,因为了解相关任务的相互关系的目的正是为了执行更难的任务。人类可以胜任这种类型的学习,因为我们理解词语之间的语境关系,这正是我们试图通过深度学习实现的目标。”

Tourassi团队开展的另一项研究使用了946份关于乳腺癌和肺癌的SEER报告应对更复杂的挑战:使用深度学习将癌症的来源与相应的拓扑代码进行匹配。该分类比癌症的首发位置或偏侧性更具特异性,有12种可能的答案。

为了解决上述问题,该团队建立了一个卷积神经网络并使用各种语料训练。输入的文本包括一般领域(如Google搜索的结果)、特定领域(如医学文献)和高度专业化领域的资料(如癌症病理报告),然后算法基于这些输入信息创建一个数学模型,用以描绘单词之间的联系,其中包括不相关的文本之间共有的词汇。

通过将这种方法与传统的分类器(如矢量空间模型)进行比较,研究小组发现,随着网络中纳入了更多与癌症相关的文本,算法性能变得越来越好。这些初步结果将有助于Tourassi团队进一步扩展深度学习算法,从而能够处理更大的数据集并减少人为干预。

2016年,美国能源部将Tourassi团队的癌症监测项目列入了“百亿亿次级计算项目”,该团队在利用深度学习进行癌症研究方面已经取得了巨大进展,希望在未来能够取得更多的研究成果。

原文发布于微信公众号 - 人工智能快报(AI_News)

原文发表时间:2017-01-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

应对AI失控,研究人员提出用“人格障碍治疗”解决问题

【AI 科技大本营导读】随着人工智能 (AI) 技术和应用的普及,人们对于 AI 的认识不再只是一种智能机器。近日,麻省理工的研究团队构建了一个有精神病倾向的...

923
来自专栏人工智能

人工智能阿尔法元

《吴军·硅谷来信》20171019《特别来信丨千字解析人工智能阿尔法元》 ? 10 月 19 日,《自然》(Nature)杂志官网上刊登了 Google De...

1785
来自专栏企鹅号快讯

ALPHA ZERO对象棋的启示

2016年1月27日,《自然》刊文报道,谷歌公司开发人工智能程序alpha go(阿尔法围棋)以5:0的战绩完胜欧洲冠军,围棋职业二段樊麾。这是围棋人工智能首次...

2075
来自专栏新智元

【王小川】谷歌 AI 将完胜围棋世界冠军李世石

新浪科技讯 2月3日下午消息,谷歌发布旗下深度学习研究成果——围棋程序AlphaGo后,引起热议。关于3月份与韩国围棋国手李世石的较量也让业界纷纷展开预测。同样...

2675
来自专栏大数据文摘

复杂系统研究:从蚁群到互联网

1907
来自专栏大数据文摘

机器真的已经战胜人类医生了吗?医学AI标题党文章中的三大陷阱

1797
来自专栏镁客网

黑科技 | 用算法分析图像,实现对神经元行为的精准“录像”研究

940
来自专栏新智元

从传统 CAD 到深度学习驱动的影像系统:智能医疗落地三大技术挑战

【新智元导读】从传统 CAD 发展到今天深度学习驱动的智能医疗影像系统,新技术的兴起和应用为医疗领域带来了哪些变化?智能医疗影像系统离常规临床应用还有多远?特...

3995
来自专栏人工智能头条

吴韧:“异构神机”强于Google AlphaGo 专注类脑芯片、调参是错误

2098
来自专栏CDA数据分析师

从"深蓝"到 AlphaGo丨AI 在游戏领域的升级打怪之路

? 可以说,AI的发展进化史就是AI在游戏领域的升级史。 SciShow是Youtube上热门的科普向脱口秀节目。它的内容包罗万象,无论什么问题在这里都会得到...

1758

扫描关注云+社区