1000 Genome Project

1000 Genome Project 的目标是发现在人群中频率大于1%的变异位点,对来自不同人群的大量样本进行测序,识别到了许多的变异位点,为人类遗传变异的研究提供了一个综合的资源。

整个项目划分为四个阶段,试点阶段和三个主要阶段,主要阶段中只有第一阶段和第三阶段产生了数据,每个阶段数据的详细情况如下图所示

整个项目从2008年开始到2013年结束,最终的版本为2013年5月2日发布的数据, 包含了来自26个人群,共2504个样本的SNP分型结果。1000G的数据是免费公开的,可以通过ftp下载得到,网址如下

ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/

26个不同的群体,用3个字母的缩写表示,具体情况如下

Code

Des

Detail

CHB

Han Chinese

Han Chinese in Beijing, China

JPT

Japanese

Japanese in Tokyo, Japan

CHS

Southern Han Chinese

Han Chinese South

CDX

Dai Chinese

Chinese Dai in Xishuangbanna, China

KHV

Kinh Vietnamese

Kinh in Ho Chi Minh City, Vietnam

CHD

Denver Chinese

Chinese in Denver, Colorado (pilot 3 only)

CEU

CEPH

Utah residents (CEPH) with Northern and Western European ancestry

TSI

Tuscan

Toscani in Italia

GBR

British

British in England and Scotland

FIN

Finnish

Finnish in Finland

IBS

Spanish

Iberian populations in Spain

YRI

Yoruba

Yoruba in Ibadan, Nigeria

LWK

Luhya

Luhya in Webuye, Kenya

GWD

Gambian

Gambian in Western Division, The Gambia

MSL

Mende

Mende in Sierra Leone

ESN

Esan

Esan in Nigeria

ASW

African-American SW

African Ancestry in Southwest US

ACB

African-Caribbean

African Caribbean in Barbados

MXL

Mexican-American

Mexican Ancestry in Los Angeles, California

PUR

Puerto Rican

Puerto Rican in Puerto Rico

CLM

Colombian

Colombian in Medellin, Colombia

PEL

Peruvian

Peruvian in Lima, Peru

GIH

Gujarati

Gujarati Indian in Houston, TX

PJL

Punjabi

Punjabi in Lahore, Pakistan

BEB

Bengali

Bengali in Bangladesh

STU

Sri Lankan

Sri Lankan Tamil in the UK

ITU

Indian

Indian Telugu in the UK

对于这26个群体,归属于5个不同的super population

Population Code

Description

EAS

East Asian

SAS

South Asian

AFR

African

EUR

European

AMR

American

除了通过FTP直接下载以外,还可以通过以下两种方式下载:

1. Aspera

由于1000G的数据量比较大,通常通过Aspera 进行下载,命令如下

ascp -i bin/aspera/etc/asperaweb_id_dsa.openssh -Tr -Q -l 100M -P33001 -L- fasp-g1k@fasp.1000genomes.ebi.ac.uk:vol1/ftp/release/20100804/ALL.2of4intersection.20100804.genotypes.vcf.gz ./

2. Globus

Globus 是一个软件,通过这个软件可以方便的管理和分发数据,官网如下:

https://www.globus.org/

首先需要注册一个账号,然后要下载软件才可以使用,和百度网盘的使用体验类似。

通常情况下使用Aspera就可以了。 1000G和hapmap都是对不同人群大量样本测试,然后鉴定变异位点。和hapmap相比,1000G无论是样本数量,还是变异位点的数量,都更具优势,所以使用1000G的科研工作者更多。随着hapmap官网的关闭,1000G完全取代了hapmap。

1000G中发现的SNP位点信息都提交到了dbSNP数据库,SV结构变异位点信息都提交到了DGVA数据库。

本文分享自微信公众号 - 生信修炼手册(shengxinxiulian),作者:庐州月光

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-05-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • circos 可视化手册-tile 篇

    tile用来展示基因组上区域的分布,和之前介绍过的highlight不同,这些区域在图中并不是位于同一层的。为了避免不同区域之间的重叠,tile会将有重叠的区域...

    生信修炼手册
  • dbNSFP:非同义突变功能注释数据库

    在对SNV位点进行注释时,往往需要综合采用多个数据库的注释结果,为了方便肿瘤研究人员,dbNSFP对人类基因组上的突变位点进行了丰富全面的功能注释,其目的是提供...

    生信修炼手册
  • GATK官方推荐的workflow语言-WDL

    在GATK4的best practice中,不再像以前那样给出每个步骤对应的代码,而是直接给出了官方使用的pipeline。这些pipeline采用WDL进行编...

    生信修炼手册
  • MySQL存储过程where条件执行失败的问题

          前几天对服务器实体做了属性缓存机制,当时测试也没有出现大的问题,昨天有人跟我说,登陆的时候角色等级显示错误,我复测了一下,发现不只是等级错误,进入...

    帘卷西风
  • Identify the logic how BOL node name is categorized into different object type

    Identify the logic how BOL node name is categorized into different object type

    Jerry Wang
  • C# 从1到Core--委托与事件

      委托与事件在C#1.0的时候就有了,随着C#版本的不断更新,有些写法和功能也在不断改变。本文温故一下这些改变,以及在NET Core中关于事件的一点改变。

    FlyLolo
  • 如何通过跨学科应用提高对函数式程序设计的兴趣(cs)

    函数式编程代表了应用和实现软件的现代化工具。函数式编程的最新发展报告了这种范式中越来越多的方法。然而,缺乏广泛的跨学科应用。我们的目标是提高学生的兴趣,追求进一...

    用户7454091
  • Python 爬取 B 站,宋智孝李光洙哪个更受宠?

    在中国,大家应该都了解《跑男》这个节目吧,跑男这个节目就是引用了韩国的《Running Man》,成员组成包括原六位成员刘在石、池石镇、金钟国、HAHA(河东勋...

    一墨编程学习
  • c语言_头文件_stdlib

    landv
  • 一个关于Java输入输出优化的坑 原

    在用Scanner输入大量数据的时候,会出现时间巨慢的问题,今天网上查到了方法,原来java的输入输出是有优化方法的。

    Gaussic

扫码关注云+社区

领取腾讯云代金券