【直播】我的基因组56:探索遗传起源

首先,节日快乐!在这个众人狂欢的节日里,我冷静了冷静,听说知识量储备差太多的人做不了朋友,于是默默的搬起了板凳专心学习。

昨天我们看了看千人基因组计划的公共数据的PCA分群。

【直播】我的基因组55:简单的PCA分析千人基因组的人群分布

今天,我用我自己的基因型数据跟千人基因组数据进行比较,差不多算是祖源分析吧。在前面的直播中,我们粗暴的利用了R里的因子把千人基因组计划里面的基因型字符串(0/0,0/1,1/0,1/1)直接赋值为1,2,3,4了,但是有更优的解决方案,可以将基因类型数据转换成连续值。将有参考字母的两份拷贝的样本设为0,一份参考拷贝和一份替代拷贝的设为0.5,有两份替代拷贝的设为1.0。另外,我们会丢弃千人基因组的人群面板中存在'None'的任何变量,因为它们并不含信息,如下图所示:

然后我再把自己的基因型数据根据上次随机挑选的千人基因组计划的1号染色体的1000个位点把对应的基因型挑选出来!【直播】我的基因组55:简单的PCA分析千人基因组的人群分布

这个脚本 跟从fasta序列里面挑子集有点类似:http://www.biotrainee.com/thread-696-1-1.html

这里的数据处理跟前面的差不多,我就不放代码了!

最后得到的图如下:

可以很明显的看到,用前两个主成分来分类的话,我是被划分到东亚人中(符合认知,我是标准的黄皮肤人)。

但是千人基因组计划里的东亚人也还是可以继续细分的,所以我就根据前两个主成分算了一下所有人与我的距离,挑了最近的5个人,看了一下。确实好乱!

越南人,日本人,汉人和傣族人,我也是醉了。

那么我把东亚人单独拿出来,跟我的基因型一起再画一个图吧!

好吧,这时候我算是明白了,原来是我挑位点的方式大错特错了,我选择的是allel frequency 接近于0.5的那些位点,就是在人群中基因型一半一半的,这样就造成,进化时间上接近的人种难以区分。

但是不管怎么说吧, PCA在人群分类的作用力大家应该有目共睹了,接下来的的重点是挑选合适的位点来做分析。

除了祖先,基因数据可以用于预测疾病风险,药物副作用,甚至构建脸部模型,不过那个需要有足够多的表型数据,而不仅仅只是一个人种的记录信息啦。(https://www.newscientist.com/article/mg22129613-600-genetic-mugshot-recreates-faces-from-nothing-but-dna/)

参考文档:

使用Python,分析23AndMe数据,获取遗传起源

http://stats.stackexchange.com/questions/72839/how-to-use-r-prcomp-results-for-prediction

http://www.cnblogs.com/panpansky/p/4604008.html

http://blog.csdn.net/qq_25040013/article/details/52578235

文:Jimmy

图文编辑:吃瓜群众

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-02-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏奇点大数据

遗传算法(1)

与其说遗传算法是一个算法,不如说是一种处理问题的思想方式更为恰当,因为遗传算法整个体系说来说去都是在说对于一种问题处理的思路和原则,而不是一个具体的代码编写过...

2897
来自专栏PPV课数据科学社区

【学习】天龙八部:8步从Python白板到专家

如果你想做一个数据科学家,或者作为一个数据科学家你想扩展自己的工具和知识库,那么,你来对地方了。 这篇文章的目的,是给刚开始使用Python进行数据分析的人,指...

2123
来自专栏量子位

谷歌跨界医学新动作:基因突变定位模型又更!新!了!

去年12月,谷歌大脑发布了快速找出基因突变位点的深度学习模型DeepVariant,用图像识别的思路来精准定位出基因序列中突变的位点。

541
来自专栏思影科技

《大话脑成像》系列之七 —— 模板(mask)

前言:时光飞逝,岁月匆匆,不知不觉我们大话脑成像系列已经走过六期,在这六期里我们与读者共同渡过了一段美好的时光,相信你如果完全理解了我写的内容的话,你们...

38510
来自专栏大数据文摘

小白学数据之常用Python库“小抄表”(附小抄表PDF下载)

1393
来自专栏镁客网

北大课题组改进ECC测序法,利用信息冗余大幅增加测序精度 | 黑科技

1200
来自专栏挖数

数据分析告诉你,韦小宝跟他七个老婆哪个最亲?

金庸的“飞雪连天射白鹿,笑书神侠倚碧鸳”,唯独《鹿鼎记》写的最是香艳动人,年少时阅此书,每每春心荡漾,心里如钻进小鹿。 ? 刁蛮任性的建宁公主、天香国色的阿珂、...

3098
来自专栏数据结构与算法

博弈论进阶之Anti-SG游戏与SJ定理

前言 在之前,我们初步了解了一下SG函数与SG定理。 今天我们来分析一下SG游戏的变式——Anti-SG游戏以及它所对应的SG定理 首先从最基本的Anti-Ni...

3304
来自专栏take time, save time

编程一样可以很带感--1+1不一定等于“2”

刚玩了两把flash小游戏,我也不知道为什么我从小就喜欢玩这个东西,想当初我上大学选软件的目的就是为了学会做flash,那时目的单纯吧?哈哈,初中的时候看的...

3576
来自专栏Y大宽

关键基因和hub基因(生物网络角度)

这篇文章仍然来自几篇文章及自己平时的积累,主要阐述关键基因和hub基因。很多人误以为hub基因就是关键基因,甚至有人认为差异表达基因就是关键基因。在正式看本文章...

1272

扫码关注云+社区