专栏首页大数据文摘业界 | Nature:人工智能协助科学家解密基因序列

业界 | Nature:人工智能协助科学家解密基因序列

大数据文摘出品

编译:李可、Aileen

快速测序基因组的能力为科学家提供了大量的数据,但了解进化是如何塑造了人类仍然是一项艰巨的任务。

精确确定人类基因序列在哪里及如何进化就像大海捞针。每个人的基因组包含30亿个称为核苷酸的构建模块,研究人员必须汇编来自数千人的数据,以期发现进化压力塑造基因的模式。

为了找到这些模式,越来越多的遗传学家转向一种称为深度学习的机器学习方法。该方法的支持者表示,与传统的统计方法相比,在自然选择的特征描述上,深度学习算法需要的明确假设更少。

“机器学习正在把推测进化的能力自动化,”俄勒冈大学的人口遗传学家Andrew Kern说, “毫无疑问,它正向前发展。”

麻省理工—哈佛大学Broad研究所的人员开发了一种名为“DeepSweep”的深度学习工具。该工具标记了20,000个单个核苷酸供进一步研究。研究人员上个月在加州圣地亚哥举行的美国人类遗传学会年会上报告说,这些简单突变或其中的一部分可能帮助人类在疾病,干旱或达尔文所谓的各种“生活状况”中生存下来。

自20世纪70年代以来,遗传学家已经构建了数学模型来描述自然选择在DNA中的独特踪迹。如果新出现的突变能够使人比周围人更好地生存和产生后代,那么具有该突变基因的人群占比将随着时间的推移而增长。

一个例子是使成年人能够消化牛奶的突变。进入成年期后,它使身体能够产生乳糖酶(一种消化牛奶中的糖的酶)。用统计方法分析人类基因组后,研究人员发现该突变数千年前在欧洲通过社区迅速传播——可能是因为牛奶中的营养物质使人能繁衍更健康的后代。如今,近80%的欧洲人后裔携带该突变基因。

算法训练

然而,遗传学家一直在努力识别和确认基因组的其他片段,这些基因片段因为提供了适应优势而在整个种群中传播。深度学习正擅长这类任务:发现隐藏在大量数据中的微妙模式。

但有一个问题。深度学习算法通常使用真实数据来训练,学习将信息分类; 以Facebook为例,其面部识别算法基于人们标注过的图片。遗传学家还不知道基因组的哪些部分是通过自然选择形成的,因此不得不在模拟数据上训练深度学习算法。

布朗大学的人口遗传学家Sohini Ramachandran表示,生成模拟数据时需要研究人员对自然选择特征作出假设。 “我们没有正确标注过的数据,所以我们担心可能无法正确模拟。”

康奈尔大学的人口遗传学家Philipp Messer表示,深度学习算法以黑箱运行,因此很难获知识别数据模式时使用的标准。 “如果模拟数据有错,则不清楚响应意味着什么” ,他补充道。

使用深度学习算法的研究人员确实也有一些方法可以窥视这个黑箱。 DeepSweep的作者在模拟基因组中插入了一些自然选择特征并在上面训练他们的算法。当他们在真实的人类基因组数据上进行测试时,该算法聚焦到了让成人可以消化牛奶的乳糖酶突变。Broad研究所的计算遗传学家Joseph Vitti说,这增强了团队对该工具的信心。

研究人员随后筛选了来自1000 Genomes Project的数据(一项国际计划,测序来自全球2,504人的DNA),并使用统计方法识别可能处于进化压力下的区域,这些区域约占人类基因组的三分之一。接下来,DeepSweep评估了每个区域。在分析结束时,它提供了含20,000个突变点位的列表供进一步研究。

在接下来的几个月里,Vitti和同事将把这些突变编码到活细胞DNA中,并比较有无突变的情况,来研究这些突变的作用。

继续寻寻觅觅中

其他几位研究人员正在研究深度学习算法,以寻找基因组中适应环境的征象。由Kern开发的深度学习模型表明,首先,人类的大多数突变既非有益也非有害3。相反,它们似乎在种群中漂移,增加了自然遗传变异性,并且只在环境变化使变异携带者拥有进化优势时才变得更加频繁。

2月,Ramachandran和她的同事报告了他们开发的深度学习算法SWIF(r)。当他们将其用于来自非洲南部的Khomani San族群的45名成员的基因组时,它标示了与新陈代谢相关的基因附近的变异。研究人员推测这些变化可能发生在几千年前,帮助族群成员在缺乏保障的食物周期储存脂肪。

该突变的影响还需进一步考察。但与DeepSweep确定的突变基因一样,由SWIF(r)选出的候选基因给了研究人员一个起点。

“这是寻找自然选择踪迹的极其强大的方法,”Broad研究所的计算遗传学家和Vitti的博士生导师Pardis Sabeti说。 “尽管我刚开始这项研究时,有人认为根本无法精确定位突变。”

如今,那些不可能的设想正在一步一步地实现。

相关报道:

https://www.nature.com/articles/d41586-018-07225-z

【今日机器学习概念】

Have a Great Definition

本文分享自微信公众号 - 大数据文摘(BigDataDigest)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-11-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【重磅】Facebook AI 负责人:深度学习技术趋势报告(150 PPT下载)

    大数据文摘
  • 新型算法可确定基因组突变位点

    大数据文摘
  • [干货] 一个数据科学家的新年计划

    大数据文摘
  • 强化学习从入门到放弃

    重要概念 强化学习(REinforcement Learning)(个人理解):在设定的规则下,通过训练让机器学习完成特定的任务。 强化学习的目的是学习一个策略...

    企鹅号小编
  • 答知友困惑:Java零基础如何入门,不知道怎么学,迷茫ING

    几个星期之前,我在知乎上看到一个提问,说是:对于完全没有经验零基础自身的数学底子也很弱学习Java应该怎么学习呢?想着类似的问题我也有过回答,并且反馈还是蛮好的...

    程序员小跃
  • 1w5000字概括ES6全部特性

    第三次阅读阮一峰老师的《ECMAScript 6 入门》了,以前阅读时不细心,很多地方都是一目十行。最近这次阅读都是逐个逐个字来读,发现很多以前都没有注意到的知...

    前端迷
  • 深度学习和经验主义的胜利

    用户1737318
  • 使用集成学习提升机器学习算法性能

    译者注:这篇文章是对 PythonWeekly 推荐的一篇讲集成模型的文章的翻译,原文为 Ensemble Learning to Improve Machi...

    Alan Lee
  • Spring Boot 2.0正式发布,升还是不升呢?

    Spring帝国 Spring几乎是每一位Java开发人员都耳熟能详的开发框架,不论您是一名初出茅庐的程序员还是经验丰富的老司机,都会对其有一定的了解或使用经验...

    程序猿DD
  • 带妹入坑,她该怎样提高自己的编程能力?

    老读者都知道了,今年我成功带妹入坑。因为她自己不知道喜欢什么专业,也没有目标和方向,于是作为有经验的前辈,我就给她指了一条“明路”——计算机编程。

    沉默王二

扫码关注云+社区

领取腾讯云代金券