【直播】我的基因组56:探索遗传起源

首先,节日快乐!在这个众人狂欢的节日里,我冷静了冷静,听说知识量储备差太多的人做不了朋友,于是默默的搬起了板凳专心学习。

昨天我们看了看千人基因组计划的公共数据的PCA分群。

【直播】我的基因组55:简单的PCA分析千人基因组的人群分布

今天,我用我自己的基因型数据跟千人基因组数据进行比较,差不多算是祖源分析吧。在前面的直播中,我们粗暴的利用了R里的因子把千人基因组计划里面的基因型字符串(0/0,0/1,1/0,1/1)直接赋值为1,2,3,4了,但是有更优的解决方案,可以将基因类型数据转换成连续值。将有参考字母的两份拷贝的样本设为0,一份参考拷贝和一份替代拷贝的设为0.5,有两份替代拷贝的设为1.0。另外,我们会丢弃千人基因组的人群面板中存在'None'的任何变量,因为它们并不含信息,如下图所示:

然后我再把自己的基因型数据根据上次随机挑选的千人基因组计划的1号染色体的1000个位点把对应的基因型挑选出来!【直播】我的基因组55:简单的PCA分析千人基因组的人群分布

这个脚本 跟从fasta序列里面挑子集有点类似:http://www.biotrainee.com/thread-696-1-1.html

这里的数据处理跟前面的差不多,我就不放代码了!

最后得到的图如下:

可以很明显的看到,用前两个主成分来分类的话,我是被划分到东亚人中(符合认知,我是标准的黄皮肤人)。

但是千人基因组计划里的东亚人也还是可以继续细分的,所以我就根据前两个主成分算了一下所有人与我的距离,挑了最近的5个人,看了一下。确实好乱!

越南人,日本人,汉人和傣族人,我也是醉了。

那么我把东亚人单独拿出来,跟我的基因型一起再画一个图吧!

好吧,这时候我算是明白了,原来是我挑位点的方式大错特错了,我选择的是allel frequency 接近于0.5的那些位点,就是在人群中基因型一半一半的,这样就造成,进化时间上接近的人种难以区分。

但是不管怎么说吧, PCA在人群分类的作用力大家应该有目共睹了,接下来的的重点是挑选合适的位点来做分析。

除了祖先,基因数据可以用于预测疾病风险,药物副作用,甚至构建脸部模型,不过那个需要有足够多的表型数据,而不仅仅只是一个人种的记录信息啦。(https://www.newscientist.com/article/mg22129613-600-genetic-mugshot-recreates-faces-from-nothing-but-dna/)

参考文档:

使用Python,分析23AndMe数据,获取遗传起源

http://stats.stackexchange.com/questions/72839/how-to-use-r-prcomp-results-for-prediction

http://www.cnblogs.com/panpansky/p/4604008.html

http://blog.csdn.net/qq_25040013/article/details/52578235

文:Jimmy

图文编辑:吃瓜群众

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-02-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏镁客网

蒙娜丽莎的DNA版本新鲜出炉,预示可编程分子材料的进步 | 黑科技

1190
来自专栏生信技能树

比较不同单细胞转录组数据寻找features方法

挑选到的跟feature相关的基因集,有点类似于在某些组间差异表达的基因集,都需要后续功能注释。 背景介绍 单细胞转录组测序的确可以一次性对所有细胞都检测到上千...

4299
来自专栏镁客网

北大课题组改进ECC测序法,利用信息冗余大幅增加测序精度 | 黑科技

1170

基因组测序简介

在Databricks中查看这篇文章的笔记形式

1965
来自专栏生信技能树

三维基因组学习笔记

本周受邀来武汉菲沙基因参加三维基因组学习研讨班,所以更新该系列该领域基础知识以及一个实战项目的方方面面,测试数据以及流程软件的解说,希望大家喜欢!

791
来自专栏生信技能树

基因表达调控的顺式作用因子 (CREs) 了解一下

基因表达调控 基因调控是现代分子生物学研究的中心课题之一。因为要了解动植物生长发育规律、形态结构特征及生物学功能,就必须搞清楚基因表达在时间和空间上的调控机制,...

2744
来自专栏量子位

谷歌推出开源工具DeepVariant,用深度学习识别基因变异

Root 李林 编译整理 量子位 出品 | 公众号 QbitAI Google今天推出了一个名叫DeepVariant的开源工具,用深度神经网络来从DNA测序数...

3474
来自专栏生信技能树

各种NGS组学数据分析异同点视频讲解

全外显子(Whole-exome sequencing)测序是啥?转录组(RNA-seq)测序是啥?ChIP-seq又是啥?它们之间有什么差别么?傻傻分不清,不...

4318
来自专栏生信技能树

这可能是我见过最简单的一篇SCI了

批次很多时候无法避免,比如文章 Biomed Res Int. 2014 . doi: 10.1155/2014/319534 就提到:

813
来自专栏Y大宽

Cytoscape插件3:Enrichment Map(1)

早期的基因列表解释依赖于选择一系列高得分的基因,然后建立相当主观奇怪的关系。富集分析是一个自动的,基于严格的统计学的方法来分析和解释很大的基因列表,使用的是先验...

712

扫描关注云+社区