据美国亚利桑那大学新闻网报道,该校一个研究团队正在采用人工智能算法学习成千上万篇研究论文,以获得改善治疗癌症患者的方法。
如何使每年发表的新科学数据(包括一百万篇以上癌症相关的期刊文章)变得有意义,对于当代科学家而言是一项艰巨的任务。即使科学家能够阅读每一篇文章,但要记住其内容并联系内容解答现实问题仍需要超自然的认知能力,因此如何实际阅读成千上万篇科学论文并将其中的研究成果用于解决癌症患者治疗等现实难题,成为了一大难题。
美国亚利桑那大学的Clayton Morrison教授正在带领团队开展相关研究,他们假设大部分问题能够从现存资料中找到解决方法,但没有人能够将所有信息整合在一起。该团队正在开展的项目名为REACH(意为“从文本中阅读并整合与语境有关的以及整体的机制”),获得了美国国防部高级研究计划局(DARPA)提供的逾360万美元的拨款。研究人员计划通过该项目开发一个计算机系统,该系统能够阅读论文、提取生化途径信息并将其纳入大型交互模型。REACH项目的研究人员正在开展一款交互软件的基础研发工作,药物开发人员和医生可通过该软件提供大量信息,如患者的基因组信息。反过来,还可以采用该软件模拟患者对某种特定疗法的反应。
Morrison称,这项技术将产生广泛吸引力和巨大影响:能够提供快速、个性化和精准的生物医学疗法。REACH项目的研究成果将被应用于癌症生物学领域,但研究人员希望能够将其应用于更广泛的领域。
如果将大数据难题分为两部分,那么第一部分是数据存储和移动问题,第二部分则是数据解读问题。REACH研究将分三个阶段解决数据解读问题:提取、整合和推理阶段。“提取”阶段的工作已在2015年夏天进入到测试阶段,在过去一年中,研究人员开发了一种能够运用数百种算法阅读论文的REACH计算机系统。研究人员认为,这种具有协同性的计算机就像孩子一样,需要有人教它们变聪明,但须能与人交互沟通。
在最近完成的一次项目评估中,REACH系统能够在几个小时内处理完1000篇与RAS有关的癌症论文,得到的结果胜过了过去最先进的技术,这一切全依靠算法完成,如果让科学家来做这件事,工作量将无法想象。
致力于癌细胞中RAS如何作用较为容易,原因如下:RAS蛋白对细胞内影响细胞增长、迁移和存活的化学通路具有控制作用;其次,33%的人体肿瘤会出现RAS致癌基因突变,使其成为研究得最多的一种致癌基因。当需要就某个主题阅读成千上万篇论文时,热点研究内容便具有重要意义。
REACH系统已懂得如何阅读,但需联系上下文理解。研究人员正在训练其对不同物种的区分能力,该系统目前已熟悉了30种受RAS相关肿瘤影响的物种,但仍需要了解不同细胞、器官及组织类型之间的区别,这些都是项目整合阶段需要实现的功能。到这该研究项目结束时,REACH系统应具备推理功能,即能够像科学家或医生那样提出假设。