前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >dbSNP数据库简介

dbSNP数据库简介

作者头像
生信修炼手册
发布2020-05-11 10:39:44
5.9K0
发布2020-05-11 10:39:44
举报
文章被收录于专栏:生信修炼手册生信修炼手册

dbSNP是NCBI中专门用于存储物种SNP位点信息的数据库,网址如下

http://www.bioinfo.org.cn/relative/dbSNP%20Home%20Page.htm

dbsnp有很多的版本,目前最新版本为151。在该数据库中,需要理解以下两种ID

  1. NCBI Assay ID(ss)
  2. Reference SNP ID(rs)

对于每一个提交到dbSNP数据库的SNP位点, 首先会赋予一个唯一的ss ID。 由于不同研究结构提交的SNP会存在冗余,提取SNP位点上下游区域的序列,比对参考基因组,如果多个ss ID 比对上相同的位置,说明这几个SNP位点是冗余的,会赋予一个新的reference SNP ID, 以rs开头。

对于每个rsID, 数据库汇总会记录对应的物种,基因型,等位基因频率,位置,文献等相关信息。以rs1425711270为例,链接如下

https://www.ncbi.nlm.nih.gov/projects/SNP/snp_ref.cgi?rs=1425711270

首先会给出一个综合信息,RefSNP中给出了的物种,dbSNP数据库的版本号等信息;Allele中给出了突变类型,碱基变化情况等信息;HGVS Names给出了根据HGVS命名规则指定的突变信息。

剩余的信息分成了多个模块,每个模块对应不同的内容。看几个主要的模块的信息

1. Map

这部分给出了SNP位点在不同版本的基因组上的位置信息,可以看到,对于hg19和hg38两个不同版本,位置差别还是挺大的。

2. fasta

这部分给出SNP位点的序列

3. ss ID

这部分可以看到rs号对应的多个ssID

4. GeneView

这部分会给出SNP对应的染色体和基因信息,还有对转录本和蛋白质的影响。

们经常会使用dbsnp数据库中的VCF文件,以human 为例,下载地址为

ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606/VCF/

提供了common和All 两种,All包含所有的SNP位点,common只包含了MAF大于0.01的生殖细胞变异位点,通常下载All.vcf.gz。注意下载的时候把对应的md5和tbi文件下载下来,md5用于检测下载的文件是否完整,如果vcf.gz的md5码和.md5文件中的不一致,说明下载不完整;tbi文件是vcf文件的索引,方便gatk等程序读取。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-05-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信修炼手册 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. Map
  • 2. fasta
  • 3. ss ID
  • 4. GeneView
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档