利用深度学习加速癌症研究

美国橡树岭国家实验室(ORNL)发布消息称,深度学习技术已被用于加速癌症研究。

尽管近几十年来在检测和治疗方面取得了稳步进展,癌症仍然是美国的第二大死亡原因,每年约有50万人因癌症去世。为了更好地认识和对抗癌症,医学研究者们开始借助癌症登记程序开展研究。这一全国性的组织网络可系统收集与美国癌症诊断、治疗和发病史相关的人口统计数据和临床信息。监测工作由国家癌症研究所(NCI)和疾病控制预防中心共同协作完成,目标是使研究人员和临床医生能够监测全国、各州各地方的癌症病例。

这些数据大部分摘自电子文本临床报告。这些报告必须由人工整理,因此需要历时很久才能被用于研究。例如,一份详细描述癌性组织的癌症病理报告在被录入登记系统之前必须先由多位专家审核。随着每年数百万份新报告的不断产生,信息负担不断加重。

美国能源部(DOE)橡树岭国家实验室(ORNL)健康数据科学研究所主任Georgia Tourassi表示:“手动模型是不可扩展的。我们需要开发新的工具,使其能够自动完成信息提取过程,真正实现美国癌症监测的现代化。”

自2014年以来,Tourassi团队一直在专注于开发一款能快速识别癌症报告中有价值的信息的软件,这种能力不仅可以节省时间,还可能揭示癌症研究中被忽视的一些方法。在尝试使用传统的自然语言处理软件试验后,该团队利用深度学习技术获得了最新进展,深度学习是一种机器学习技术,能够利用算法、大数据和图形处理器的计算能力来模拟人类的学习和智力。

借助于橡树岭计算机科学联合研究所(Oak Ridge Leadership Computing Facility)的超级计算机Titan,Tourassi团队应用深度学习技术从癌症病理报告中提取到了有用的信息。通过使用适当的数据集,该团队获得的初步成果证明了深度学习在癌症监测中的潜力。

自动数据工具的不断发展与成熟是美国“癌症登月计划”(Cancer Moonshot initiative)的目标之一,将使医学研究人员和政策制定者对美国癌症人群的具体现状获得空前认识,而过去的病例数据仅仅来自不到癌症患者总人口5%的临床试验患者。

Tourassi说:“我们目前是根据很小比例的癌症患者的治疗效果做出判断,而他们不能代表整个患者群体。我们的工作显示了深度学习的潜力,它可以判断癌症治疗和诊断方法的有效性,并让癌症患者更好地了解这些方法的现实效果。

开发一款不仅能够理解词义还能理解词语之间上下文关系的软件并非易事,人类需要通过多年的训练来发展这些技能。对于特定任务,深度学习技术能够将该过程压缩到几个小时。

通常可通过训练神经网络来实现语境创建。该神经网络是一个加权计算网络,能就如何正确执行任务提出明智的建议,如识别图像或处理语言命令,输入到神经网络的数据和选择性反馈信息为软件提供了决策依据。程序员很难弄清这一算法决策过程。Tourassi称,有了深度学习技术,用户只需要把文件内容导入,然后就能得到结果。它更像一个黑盒子,但这正是其吸引人之处。

图形处理器可通过同时快速执行多个深度学习计算进程来加速软件的学习过程。在最近两项研究中,Tourassi团队使用了加速器调整多个算法,并将结果与传统方法进行比较。通过使用国家癌症研究所的SEER项目提供的1976份病理学报告组成的数据集,Tourassi团队训练了一种深度学习算法,用来执行两种密切相关的信息提取任务。在第一项任务中,算法通过扫描每份报告的内容确定肿瘤的首发部位。在第二项任务中,算法识别的是肿瘤部位的偏侧性或肿瘤位于身体的哪一侧。

该团队建立了一个能够发现上述两项任务间共同点的神经网络,并称之为多任务学习,他们发现该算法的表现明显优于其他方法。Tourassi说:“这样的发现是有意义的,因为了解相关任务的相互关系的目的正是为了执行更难的任务。人类可以胜任这种类型的学习,因为我们理解词语之间的语境关系,这正是我们试图通过深度学习实现的目标。”

Tourassi团队开展的另一项研究使用了946份关于乳腺癌和肺癌的SEER报告应对更复杂的挑战:使用深度学习将癌症的来源与相应的拓扑代码进行匹配。该分类比癌症的首发位置或偏侧性更具特异性,有12种可能的答案。

为了解决上述问题,该团队建立了一个卷积神经网络并使用各种语料训练。输入的文本包括一般领域(如Google搜索的结果)、特定领域(如医学文献)和高度专业化领域的资料(如癌症病理报告),然后算法基于这些输入信息创建一个数学模型,用以描绘单词之间的联系,其中包括不相关的文本之间共有的词汇。

通过将这种方法与传统的分类器(如矢量空间模型)进行比较,研究小组发现,随着网络中纳入了更多与癌症相关的文本,算法性能变得越来越好。这些初步结果将有助于Tourassi团队进一步扩展深度学习算法,从而能够处理更大的数据集并减少人为干预。

2016年,美国能源部将Tourassi团队的癌症监测项目列入了“百亿亿次级计算项目”,该团队在利用深度学习进行癌症研究方面已经取得了巨大进展,希望在未来能够取得更多的研究成果。

原文发布于微信公众号 - 人工智能快报(AI_News)

原文发表时间:2017-01-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

机器学习自动化公司DataRobot融资5400万美元

小跑编译 | 量子位·QbitAI 报道 ? DataRobot宣布完成C轮首笔5400万美元的融资,这家位于麻省波士顿的创业公司,总融资额将达到1.11亿美元...

3296
来自专栏新智元

资源 | 人工智能、深度学习、机器学习有什么区别?DL 应用案例全解析(下载)

【新智元导读】对于希望从战略层面洞察人工智能这一领域的企业领袖来说,insideBIGDATA Guide to Deep Learning & Artific...

4235
来自专栏新智元

初创企业 Neurala宣布深度学习取得重大进展: 不需要云服务器,边缘学习(吴恩达评价)

【新智元导读】 今年初完成1400万美元融资的人工智能初创企业 Neurala,昨日宣布在深度学习软件方面取得重大进展,其待决专利软件 Lifelong-DNN...

3406
来自专栏VRPinea

MIT用VR为无人机开发训练系统,可模拟不同环境

1478
来自专栏AI科技大本营的专栏

独家 | 一个天才的开挂人生:5年升至华盛顿大学终身教授,直取AAAI最佳论文奖,如今他要拿机器学习攻破全球慢性病难题

采访 | 孟岩 编辑 | 鸽子 他是少年天才,本科就读于中国科技大学少年班;他是华盛顿大学的终身教授,一般牛人也得花个7年时间,而他只需要5年就评上。如今,他一...

3075
来自专栏云资讯小编的专栏

腾讯云王琰:腾讯云AI Cloud的技术、应用布局和趋势

简单来说,腾迅云AI Cloud服务矩阵服务三类目标群体,一个是基础研究。基础研究员可以通过云服务器以及深度学习平台快速搭建一个学习环境,以加速技术研究。

9571
来自专栏新智元

从英特尔支持DE超声机器人开发,看人工智能在医疗影像领域的价值和机遇

【新智元导读】医疗影像智能分析在智能医疗各领域中都属于发展较快的一支。国内外涌现了一批将 AI 技术应用于医疗影像识别和分析的初创公司。然而,在具体的技术落地过...

2767
来自专栏AI科技大本营的专栏

李飞飞最新论文:用算法判断政治倾向(附论文链接)

翻译 | SHAWN 编辑 | Donna 斯坦福大学的研究人员开发出了一种可以进行观察和学习的算法,他们用这种算法分析了百万张公开的Google街景(Goog...

33710
来自专栏AI科技大本营的专栏

CCAI 2017 | 刘燕:艺术与人工智能的明天——人机信任合作

南加州大学计算机系名誉副教授、机器学习中心主任刘燕 文/CSDN贾维娣 7 月 22 - 23 日,在中国科学技术协会、中国科学院的指导下,由中国人工智能学会、...

3608
来自专栏机器之心

访谈 | 跳槽、行业前景、模型等创业者想问的,邓力这样说

机器之心原创 作者:邱陆陆 5 月 25 日晚,刚刚宣布加入 Citadel 的前微软人工智能首席科学家、IEEE Fellow 邓力参加了由中国科大百人会和阿...

3658

扫码关注云+社区