首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >科学家利用深度学习与百亿亿次计算探索抗癌密码

科学家利用深度学习与百亿亿次计算探索抗癌密码

作者头像
人工智能快报
发布2018-03-15 11:31:54
6180
发布2018-03-15 11:31:54
举报
文章被收录于专栏:人工智能快报人工智能快报

据美国阿贡国家实验室网站消息,该实验室正在探索如何利用深度学习和即将出现的百亿亿次计算来获取抗癌密码。

癌症的诊断是无比重要的事情,其治疗过程往往是复杂而不确定的。医生尚未了解特定的癌症会给个体带来何种影响,而对一个患者可能有用的药物,对另一个患者则可能无效。

但是,通过创建基于遗传学的精准医疗方案,医学研究与高性能计算的融合正在带来更加个性化的治疗方法。

美国能源部(DOE)阿贡国家实验室的计算、环境与生命科学研究所主任、副研究员Rick Stevens说:“精准医疗是根据每个患者的不同情况对其进行微调治疗的能力,而造成这些不同的原因可能来自于遗传、环境或者历史。为了能够将精准医疗用于癌症治疗,需要大量的数据,其中不仅需要来自患者的数据,也需要来自肿瘤的数据,因为癌症会改变肿瘤周围组织的遗传特征。”

在目前典型的癌症研究中,对单个肿瘤的一次活检就需要进行超过八百万次测量。尽管目前的技术允许我们以更高的准确度来表征癌症的生物学成分,但测量所产生的大量数据也已经使我们无法快速、准确地分析这些成分。

为了解决这些复杂而又重要的精准医疗问题,全世界的研究人员正在探索百亿亿次计算的前景。Stevens是一个多机构协作组织的主要研究者,该组织正在推动一个专注于深层神经网络代码CANDLE(CANcer分布式学习环境)开发的超级计算框架。

作为癌症高级计算解决方案联合设计(JDACS4C)、美国能源部和国家癌症研究所(NCI)合作的一部分,CANDLE项目将解决针对癌症的三个关键挑战,以加速在分子、细胞和人口水平上的研究。

挑战者们将测试CANDLE的先进机器学习方法:深度学习。结合新颖的数据采集和分析技术、模型的制定和模拟,该方法将能够为个体患者制定特别设计的预后与治疗计划。

Stevens表示:深度学习是利用多层神经网络进行的机器学习。在进行预测时,如果能够获得更多数据,它会变得更加智能和准确。在学习解决问题的过程中,它表现得非常成功。

该模型将已观察到的数据存储起来,并在稍后利用它快速地推断出类似或重复发生的事件或问题的解决方案。语音识别、图像识别和文本翻译都使用了机器学习技术。我们许多人每天都在使用这些工具,却没有意识到这一点。

“每次与SIRI或Alexa交谈,你都在接触深度学习,”他补充说。

该框架将建立在可用的开源深度学习平台之上,而这些平台可以根据JDACS4C的挑战主题来适应癌症过程的不同方面:1)了解关键蛋白质相互作用的分子基础;2)制定药物反应的预测模型;3)自动从数百万癌症患者的记录中提取并分析信息,以确定最佳的癌症治疗策略。

这一过程首先需要将癌症对药物和不同个体反应的所有已知数据进行汇总,并创建其虚拟近似值。尽管分子配置、药物组合和患者数据集的数量大到令人吃惊,但百亿亿次预测框架将通过逐步的“学习”来实现对它们的有效管理。

例如,药物反应挑战的目标是根据肿瘤和药物的特征来预测肿瘤将对药物作出何种反应,其中包含的信息是确定的。

CANDLE网络代码将通过训练产生,用以吸收以前的数百万药物筛选结果。然后,一个开源的内容管理系统将搜索超过十亿种药物组合,以找到最有可能抑制特定肿瘤的药物,或者搜索十亿种假设的化合物来确定其中可用于新药开发的种类。

通过另一种被称为数据挖掘的技术,研究治疗策略的人可以对网络进行训练,以筛选并自动解释数百万个临床报告和患者记录。网络可以从这些资料中直接提取与特定患者相关的数据,并为该患者建立治疗和预后轨迹的预测模型。

到目前为止,从事这项工作的癌症研究人员一直保持着较小的团队规模,却维护着包含癌症发展特征不同因素的大量数据库。但这些信息大部分是不太重要的。最有用的信息被埋藏在收集到的数百万个数据点之中。

Stevens解释说:“很大一部分挑战就来自于这个问题,因为目前人们是通过手工方式完成这项工作的。我们试图设计一种使用机器学习的自动搜索方法,以帮助人们从初始模型开始自动查找更好的模型。然后我们就可以对每个病人重复这个过程。”

尽管这些训练问题的计算解决方案可能需要当前最大的高性能计算机,但Stevens及其团队认为,所产生的模型可能需要百亿亿次或近似百亿亿次的系统,以推动它们在所有癌症问题领域的发展。

CANDLE是由美国能源部百亿亿次计算项目(ECP)资助的三个独特的阿贡国家实验室计划之一。该计划于2015年推出,旨在促进应用程序、软件和硬件技术的设计并将其集成到百亿亿次系统中。

这些系统将能够运行诸如CANDLE等应用程序,其速度比当前最强大的超级计算机快50到100倍,如位于阿贡领导计算设施(ALCF)的超级计算机。该机构是美国能源部下设的一个科学用户设施办公室。Theta是ALCF的一个新型9.65千兆次Intel-Cray系统。它在传统建模和仿真应用中表现出极佳的性能,并被开发用于更快、更高效地处理高级软件和数据分析方法。

ECP项目总监Paul Messina说:“研究人员想完成的事情要求我们获得更多的数据、更大的存储容量和更高的计算能力。这就是我们努力构建一个更侧重于数据的全新框架的原因。CANDLE将在推动这一框架的应用程序的开发中发挥重要作用,从而创造出能够分析数亿个数据项的能力,以提供针对个人的癌症治疗方法。”

凭借与JDACS4C的独特合作,CANDLE团队能够立即获得美国国家癌症研究所强大的主题资源和癌症领域专家的支持。作为美国能源部,特别是CORAL(由Oak Ridge、阿贡和Lawrence Livermore国家实验室组成的合作组织)的合作伙伴,CANDLE征募了一些美国杰出的计算科学家,以提供计算和数据科学的专业知识。

这些实验室和ECP的供应商都是世界上高性能计算架构的领先设计者。Stevens指出:像英特尔、英伟达、IBM和Cray这样的公司都有兴趣在癌症研究方面进行合作,并且完全相信模拟、数据和机器学习之间的融合是未来的发展方向。

癌症研究国家实验室的战略与数据科学计划主任Eric Stahlberg表示:在企业中存在大量的团队合作和共享。癌症是与每个人相关的东西,所以有机会发展能够最终帮助别人的能力是很令人激动的。

“这是一个艰巨的任务。但是,即使是逐步实现这一目标,也将对许多受癌症影响的人产生重大影响。”

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-08-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人工智能快报 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档