前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【数说·大数据圈】机器学习在生物大数据应用的一个例子

【数说·大数据圈】机器学习在生物大数据应用的一个例子

作者头像
数说君
发布2018-04-04 16:08:40
1.2K0
发布2018-04-04 16:08:40
举报
文章被收录于专栏:数说工作室数说工作室

文/飞扬

飞扬,生物圈女博士一枚,数说工作室特约撰稿人,关注领域:生物、健康、图像识别、大数据


机器学习在生物大数据应用的一个例子

前不久,华大基因宣布前CEO王俊“辞职但未离职”,将转战“基因测序+人工智能”领域。

撇开阴谋论和各种传言不谈,让我们把焦点放在科学上——基因测序和人工智能可以擦出怎样的火花?也是在几天前,有一家生物大数据的创业公司出现在媒体和公众的视线中——Deep Genomics。这个公司是干嘛的呢?简单来说就是:

利用机器学习的方法,预测基因组上的变化会对人体的特征/疾病/表型产生怎样的影响。

这就是本文要说的,机器学习在生物大数据上应用的一个例子。那么它是如何实现的呢?可以概括为两步:

(1)确定与某个特征/疾病/表型相关的基因易感位点。 我们每个人所带的基因是差不多的,之所以有的人卷发,有的人直发,有这么丰富多彩的变化,就是因为基因发生了改变,所以严格来说,我们要找的是基因的“多态性”。 (2)以这些基因易感位点数据作为输入变量,相关的特征/疾病/表型为响应变量,训练机器学习模型。

简单两步,但却蕴含着大数据、机器学习、统计学的精粹利用,现在逐一来分析。

1. 确定与某个特征/疾病/表型相关的基因易感位点。

这一步如何做?目前较流行的当属GWAS,所谓GWAS,是指全基因组关联分析(Genome-wide association study),是一种对全基因组范围内的常见遗传变异基因总体关联分析的方法。

目前,科学家已经对糖尿病、冠心病、肺癌、前列腺癌、肥胖、精神病等多种复杂疾病进行了GWAS分析,并找到了疾病相关的多个易感位点。看一下下面的图:

简单来说,塞一大堆的基因易感位点数据(几十万、几百万也可能上千万个易感位点),和要分析的这个特征/疾病/表型数据,然后建立模型分析找到存在显著关系的那个易感位点。

这有点类似于,我们有身高、学历、职业三个潜在影响变量,要从这三个变量中找出:哪个变量与收入存在显著关系、进而可能决定了收入。这里身高、学历、职业三个变量就相当于易感位点(只不过我们的潜在易感位点有几十万甚至几百万,所以才是生物大数据嘛),收入就相当于特征/疾病/表型。

模型可以选择卡方检验,或者logistic模型等等(模型的选择取决于你的表型)。值得注意的是,这里的显著性水平不再是0.05了,因为几百万个位点的分析,5%的显著性水平太低,此时要做P值的校正(在微信公众号shushuojun中回复“校正”)。

最终,我们选出来了对这个特征/疾病/表型有决定作用的一个或多个基因易感位点。

举一个例子,我们知道高血压是有遗传性的,既然有遗传学,就说明一定有基因的作用在里面,2009年,在nature genetics的一篇论文中,作者就是用GWAS找到了和高血压相关的几个SNP。这篇论文的名字也很直白:

“Genome-wideassociation study identifies eight loci associated with blood pressure”。

2. 用机器学习模拟特征/疾病/表型的变化

通过第一步的GWAS分析,我们知道哪些基因组的变化会一起一些特征/疾病/表型的改变。

在此基础上,我们就可以构建机器学习的算法,以基因组数据为输入变量、以特征/疾病/表型的数据为输出变量,利用大规模的训练数据去训练模型,以预测基因组的突变会如何改变细胞,进而改变动物和人体的表现。

前面说到的生物创业公司DeepGenomics,他们的第一个产品是SPIDEX,就是预测基因组突变对RNA剪切的影响。

基因组突变→ RNA剪切

再举一个例子,有的人天生能喝酒,有的人一沾酒就脸红。这也是有基因在起作用的,酒精在人体先分解成有毒的乙醛,再通过乙醛脱氢酶分解成无害的乙酸。因此,乙醛脱氢酶的活性就决定了解酒能力。为什么每个人的乙醛脱氢酶活性能力不一样?这是因为人体ALDH2基因的rs641这个点发生了改变。同样,我们或许可以利用机器学习的算法,训练大规模数据去预测乙醛脱氢酶的活性能力的表现。

综上所述,我们用GWAS找到了跟某个特征/疾病/表型相关的基因,然后在大规模样本数据中训练机器学习算法,用基因的突变去预测细胞层面的改变。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2015-08-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数说工作室 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档