前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >GeneMarkS | 原核生物基因组预测①

GeneMarkS | 原核生物基因组预测①

作者头像
生信real
发布2022-08-18 09:05:14
2.5K0
发布2022-08-18 09:05:14
举报
文章被收录于专栏:Linux基础入门Linux基础入门

前言

原核生物的基因没有内含子,其基因预测相对真核生物简单。本期将以大肠杆菌基因组为例,讲解如何使用GeneMarks对原核基因组进行预测。

GeneMarkS软件官网

代码语言:javascript
复制
http://exon.gatech.edu/GeneMark/

GeneMarkS软件安装

GeneMarkS提供了在线预测服务,网站如下:

代码语言:javascript
复制
# GeneMarkS在线网站
http://exon.gatech.edu/GeneMark/genemarks.cgi

本期主要介绍Linux运行GeneMarkS。GeneMarkS安装需要到其官网填写信息获取下载链接,所以下载地址不固定,需要自己申请。下面介绍如何获取下载链接(不想自己申请可以后台回复genemarks获取软件)。

①首先进入GeneMarkS官网(http://exon.gatech.edu/GeneMark/,点击下图红框处的“download”,跳转到软件下载界面。

②软件选择红框框选的“GeneMarkS-2 version 1.14_1.25_lic”(32位还是64位根据服务器情况选择),在黄色框填写信息后点击绿色框即可获取软件下载链接。

③使用软件需要下载两个文件,一个为软件本身(红框),一个是密钥(橙框)。鼠标右键单击选择“复制链接地址”后到服务器上下载,或者浏览器下载自行传入服务器。

④下面介绍服务器下载安装GeneMarkS的方法

代码语言:javascript
复制
# 下载软件和密钥
wget http://topaz.gatech.edu/GeneMark/tmp/GMtool_dHlO8/gms2_linux_64.tar.gz
wget http://topaz.gatech.edu/GeneMark/tmp/GMtool_dHlO8/gm_key_64.gz
# 解压软件
tar -zxvf gms2_linux_64.tar.gz
gunzip -c gm_key_64.gz > ~/.gmhmmp2_key
# 将软件添加到环境变量
vim ~/.bashrc
PATH=$PATH:/opt/biosoft/gms2_linux_64
source ~/.bashrc

Tips:①密钥安装需要安装到用户的家目录下,并且需要命名成“.gmhmmp2_key”;②将软件添加到环境变量时需要根据自己软件安装位置进行添加。

GeneMarkS示例数据下载与处理

代码语言:javascript
复制
# 下载大肠杆菌基因组
wget -O Escherichia_coli.fna.gz https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/005/845/GCF_000005845.2_ASM584v2/GCF_000005845.2_ASM584v2_genomic.fna.gz
# 解压重命名
gunzip -c Escherichia_coli.fna.gz >Escherichia_coli_genome.fasta

GeneMarkS常用参数

代码语言:javascript
复制
--seq : 输入FASTA格式的基因组序列的文件
--genome-type : 基因组类型:archaea,bacteria,auto (默认)
--gcode : 遗传密码(默认:自动。支持:11、4、25、15)
--output : 输出文件的名称(默认:gms2.lst)
--format : 输出文件的格式(默认:lst)
--fnn : 生成预测基因组的核苷酸序列
--faa : 生成预测基因组的蛋白质序列

GeneMarkS使用案例

代码语言:javascript
复制
gms2.pl \
--seq Escherichia_coli_genome.fasta \
--genome-type bacteria \
--gcode 11 \
--format gff \
--output Escherichia_coli.gff \
--fnn Escherichia_coli_gene.fasta\
--faa Escherichia_coli_protein.fasta

GeneMarkS结果文件

代码语言:javascript
复制
Escherichia_coli.gff #储存基因结构信息
Escherichia_coli_gene.fasta #预测基因组的核苷酸序列
Escherichia_coli_protein.fasta #预测基因组的蛋白质序列

gff文件简介

代码语言:javascript
复制
# gff文件一共9列,分别如下:
①seqid(序列ID):通常为染色体的ID;
②source(注释的来源):表示产生此文件的软件或方法;
③type(类型):表示区间特性类型,如gene,repeat_region,exon,CDS等;
④start(起始位点):特征区间的起始位置;
⑤end(结束位点):特征区间的终止位置;
⑥score(得分):表示注释信息可靠性;
⑦strand(正/负链):"+":正链,"-":负链;
⑧phase(步进):对于编码蛋白质的CDS,本列指定下一个密码子开始的位置。可以是0,1,2。表示到达下一个密码子要跳过的碱基个数;
⑨attribut(属性):基因ID,长度等信息;多个属性之间用";"分号分隔。

温馨提示:后台回复genemarks即可获取本期内容的软件、示例数据以及注释文件。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-07-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信百宝箱 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 前言
    • GeneMarkS软件官网
      • GeneMarkS软件安装
        • GeneMarkS示例数据下载与处理
          • GeneMarkS常用参数
            • GeneMarkS使用案例
              • GeneMarkS结果文件
                • gff文件简介
                领券
                问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档