前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Annovar软件注释肿瘤基因突变(一):COSMIC数据库最新版下载与使用

Annovar软件注释肿瘤基因突变(一):COSMIC数据库最新版下载与使用

作者头像
简说基因
发布2022-04-12 14:43:39
2K0
发布2022-04-12 14:43:39
举报
文章被收录于专栏:简说基因简说基因

COSMIC,即:Catalogue Of Somatic Mutations In Cancer。官网:

https://cancer.sanger.ac.uk/cosmic

注意事项:

  • Cosmic 数据库从 v71 版本开始,学术研究免费(需要学校或研究机构的邮箱注册),而商业使用需要授权
  • 目前数据库有基于 CRCh37 和 CRCh38 两种版本,根据需要选择合适的,步骤:进入主页 > 找到 Genome Version 菜单,选择:CRCh37 或 CRCh38

在主页的Help栏目下,点击Downloads进入下载页面,往下拉,找到需要下载的文件。有两种下载方式:一种是浏览器下载,另一种是命令行下载,这里介绍第二种。

生成认证字符串

通过命令行下载之前,需要先生成一个授权码,其实就是将注册邮箱和密码用base64命令进行编码。命令如下:

代码语言:javascript
复制
echo "email@example.com:mycosmicpassword" | base64

运行该命令后得到这样一个字符串:ZW1haWxAZXhhbXBsZS5jb206bXljb3NtaWNwYXNzd29yZAo=,就是后续要用到的授权码,该编码与邮箱和密码一一对应,如果邮箱或密码改变了,该编码需要重新生成。

注意:此文中出现的授权码是模拟的,不能直接使用,要到 Cosmic 网站注册账号获得授权。

下载 COSMIC 记录数据库

有了授权码之后,下载文件总是分两步:

  1. 获得真实的下载地址
  2. 根据真实地址下载文件

运行以下curl命令,会返回一个json文件,该文件包含了要下载的文件的真实地址,再通过curl命令下载,得到的CosmicMutantExport.tsv.gz即是需要的 Cosmic 记录数据库。

代码语言:javascript
复制
# 获得下载链接
curl -H "Authorization: Basic ZW1haWxAZXhhbXBsZS5jb206bXljb3NtaWNwYXNzd29yZAo=" https://cancer.sanger.ac.uk/cosmic/file_download/GRCh37/cosmic/v95/CosmicMutantExport.tsv.gz
# {"url":"https://cog.sanger.ac.uk/cosmic/GRCh37/cosmic/v95/CosmicMutantExport.tsv.gz?AWSAccessKeyId=KRV7P7QR9DL41J9EWGA2&Expires=1649402469&Signature=Nc%2FfbbfebR1fxnivfliUzphu%2FKM%3D"}

# 下载数据文件
curl "https://cog.sanger.ac.uk/cosmic/GRCh37/cosmic/v95/CosmicMutantExport.tsv.gz?AWSAccessKeyId=KRV7P7QR9DL41J9EWGA2&Expires=1649402469&Signature=Nc%2FfbbfebR1fxnivfliUzphu%2FKM%3D" -o CosmicMutantExport.tsv.gz

下载编码区突变文件

代码语言:javascript
复制
# 获得下载链接
curl -H "Authorization: Basic ZW1haWxAZXhhbXBsZS5jb206bXljb3NtaWNwYXNzd29yZAo=" https://cancer.sanger.ac.uk/cosmic/file_download/GRCh37/cosmic/v95/VCF/CosmicCodingMuts.normal.vcf.gz
# {"url":"https://cog.sanger.ac.uk/cosmic/GRCh37/cosmic/v95/VCF/CosmicCodingMuts.normal.vcf.gz?AWSAccessKeyId=KRV7P7QR9DL41J9EWGA2&Expires=1649407741&Signature=kxSjw4IXSq%2FpNdvd49wa7FAfVF8%3D"}

# 下载数据文件
curl "https://cog.sanger.ac.uk/cosmic/GRCh37/cosmic/v95/VCF/CosmicCodingMuts.normal.vcf.gz?AWSAccessKeyId=KRV7P7QR9DL41J9EWGA2&Expires=1649407741&Signature=kxSjw4IXSq%2FpNdvd49wa7FAfVF8%3D" -o CosmicCodingMuts.normal.vcf.gz

下载非编码区突变文件

代码语言:javascript
复制
# 获得下载链接
curl -H "Authorization: Basic ZW1haWxAZXhhbXBsZS5jb206bXljb3NtaWNwYXNzd29yZAo=" https://cancer.sanger.ac.uk/cosmic/file_download/GRCh37/cosmic/v95/VCF/CosmicNonCodingVariants.normal.vcf.gz
# {"url":"https://cog.sanger.ac.uk/cosmic/GRCh37/cosmic/v95/VCF/CosmicNonCodingVariants.normal.vcf.gz?AWSAccessKeyId=KRV7P7QR9DL41J9EWGA2&Expires=1649409695&Signature=5Sr%2BEfCDmE2771frmvsIdn%2BTBAk%3D"}

# 下载数据文件
curl "https://cog.sanger.ac.uk/cosmic/GRCh37/cosmic/v95/VCF/CosmicNonCodingVariants.normal.vcf.gz?AWSAccessKeyId=KRV7P7QR9DL41J9EWGA2&Expires=1649409695&Signature=5Sr%2BEfCDmE2771frmvsIdn%2BTBAk%3D" -o CosmicNonCodingVariants.normal.vcf.gz

制作 Annovar 使用的数据库

以上操作,获得 3 个压缩文件:

  • CosmicMutantExport.tsv.gz
  • CosmicCodingMuts.normal.vcf.gz
  • CosmicNonCodingVariants.normal.vcf.gz

至于为什么要下载这 3 个文件,请看 Annovar 官方网站的介绍:

https://annovar.openbioinformatics.org/en/latest/user-guide/filter/#cosmic-annotations

先解压:

代码语言:javascript
复制
gunzip -c CosmicMutantExport.tsv.gz > CosmicMutantExport.tsv
gunzip -c CosmicCodingMuts.normal.vcf.gz > CosmicCodingMuts.normal.vcf
gunzip -c CosmicNonCodingVariants.normal.vcf.gz > CosmicNonCodingVariants.normal.vcf

下载制作 Annovar 数据库的脚本:

代码语言:javascript
复制
wget http://www.openbioinformatics.org/annovar/download/prepare_annovar_user.pl

制作数据库:

代码语言:javascript
复制
# 制作编码区Cosmic数据库
perl prepare_annovar_user.pl --dbtype cosmic CosmicMutantExport.tsv -vcf CosmicCodingMuts.normal.vcf > hg19_cosmic95_coding.txt

# 排序,因为上述命令得到的数据库是无序的,按染色编号进行排序
sort -k1,1V -k2,2n -k3,3n hg19_cosmic95_coding.txt > hg19_cosmic95_coding_sort.txt

# 用排序后的数据库替换未排序的,hg19_cosmic95_coding.txt即为最终的编码区的Cosmic数据库,可供Annovar程序使用
mv hg19_cosmic95_coding_sort.txt hg19_cosmic95_coding.txt

# 制作非编码区的Cosmic数据库,跟编码区的一样
perl prepare_annovar_user.pl --dbtype cosmic CosmicMutantExport.tsv -vcf CosmicNonCodingVariants.normal.vcf > hg19_cosmic95_noncoding.txt
sort -k1,1V -k2,2n -k3,3n hg19_cosmic95_noncoding.txt > hg19_cosmic95_noncoding_sort.txt
mv hg19_cosmic95_noncoding_sort.txt hg19_cosmic95_noncoding.txt

制作数据库索引

通常,Annovar 的数据库如果比较大,需要先建立索引文件后再使用,但是对于 cosmic 数据库,官网有一句:

Users cannot index the file, but the file size is not too large, and you do not need to use indexing to use ANNOVAR.

就是,库不算大,不建索引也挻快,那就干脆省略这一步。

COSMIC 数据库的使用

运行以下命令测试:

代码语言:javascript
复制
perl $Bin/anno/annovar/table_annovar.pl XXXXXX.somatic.snvindel.pass.vcf $Bin/anno/annovar/humandb -buildver hg19 -outfile XXXXXX.somatic.snvindel.pass.annovar -protocol refGeneWithVer,exac03,clinvar_20220320,cosmic95_coding,dbnsfp42a -operation g,f,f,f,f -argument '--hgvs --exonicsplicing',,,, --gff3dbfile hg19_rmsk.gff -remove -nastring . -vcfinput

至此,即完成了 Cosmic 数据库的注释,可知:某体细胞突变,在此前文献中是否出现过,出现在什么癌种,出现了几次。结果如下:

代码语言:javascript
复制
ID=COSV58736910;OCCURENCE=2(thyroid)
ID=COSV100633201;OCCURENCE=1(skin)
ID=COSV58736947;OCCURENCE=1(large_intestine)
ID=COSV100633198;OCCURENCE=1(stomach)
ID=COSV58736924;OCCURENCE=1(thyroid)
ID=COSV58737059;OCCURENCE=2(skin)

The End。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-04-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 简说基因 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 生成认证字符串
  • 下载 COSMIC 记录数据库
  • 下载编码区突变文件
  • 下载非编码区突变文件
  • 制作 Annovar 使用的数据库
  • 制作数据库索引
  • COSMIC 数据库的使用
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档