前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >基于全基因组的基因家族分析(1):数据准备

基于全基因组的基因家族分析(1):数据准备

作者头像
生信技能树
发布2019-05-13 19:05:11
3K0
发布2019-05-13 19:05:11
举报
文章被收录于专栏:生信技能树生信技能树

1.基因组下载网站介绍

Sol Genomics Net:茄科基因组网络,里面包括了很多物种的基因组测序结果:番茄,土豆,茄子等。而且基因组更新最快,搜索了一下发现NCBI番茄基因组和Phytozome番茄基因组为ITAG2.4,而SGN已经是最新版本的ITAG3.2,当然以前的版本也都存在,特别方便。 此外,NCBI ProteinID是refseq accession(GENBANK文件格式有关于NCBI中ID的说明),在最后转换到番茄protein ID时会有问题,小编最后终于放弃,没有找到转换的方法(谁要是知道方法,麻烦告诉我一下,一直很苦恼)。而Phytozome要下载这些数据居然还要注册,真的有点烦,偷偷告诉你,SGN貌似也要注册(这个大家应该都没有什么问题,就直接跳过)。

刚开始选择很关键,最好我觉得还是选择最新的版本,SGN还是比较信赖。而且在后面分析基因家族的时候,会出现家族数量相差比较大,可能有10个左右的差距,新版本的基因会多。(小编因为做的跟番茄相关,所以选择了番茄,对这些网站稍微熟悉一点,大家可以选择自己熟悉的领域相应选择)。

SGN

Pythozome

NCBI

NCBI RefSeq Accession

SGN完整版基因组

2.序列相关文件下载

基础文件一般我们下载4个:CDS.fa、Protein.fa、GFF.gff3和Genome.fa

代码语言:javascript
复制
# 小编在home目录下新建sra目录,所有数据都放在这个目录里面
cd ~/sra
# 全基因组CDS序列下载
wget ftp://ftp.solgenomics.net/tomato_genome/annotation/ITAG3.2_release/ITAG3.2_CDS.fasta
# protein序列下载
wget ftp://ftp.solgenomics.net/tomato_genome/annotation/ITAG3.2_release/ITAG3.2_proteins.fasta
# gff注释文件下载
wget ftp://ftp.solgenomics.net/tomato_genome/annotation/ITAG3.2_release/ITAG3.2_gene_models.gff
# genome序列下载
wget ftp://ftp.solgenomics.net/tomato_genome/assembly/build_3.00/S_lycopersicum_chromosomes.3.00.fa.tar.gz
# 解压genome压缩文件
tar -zxvf S_lycopersicum_chromosomes.3.00.fa.tar.gz && rm S_lycopersicum_chromosomes.3.00.fa.tar.gz
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-05-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档