前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >ALTER:序列比对格式转化小工具

ALTER:序列比对格式转化小工具

作者头像
用户7010445
发布2020-03-03 14:26:32
2.1K0
发布2020-03-03 14:26:32
举报

多序列比对结果可以存储为很多格式(Multiple sequence alignments can be stored in a large variety of formats.)

比如最常见的:

Fasta

代码语言:javascript
复制
>ccsA1
ATGATATTTTCAACTTTAGAGCATATAT
>ccsA2
ATGATATTTTCAACTTTAGAGCATATAT
>ccsA3
ATGATATTTTCAACTTTAGAGCATATAT
>ccsA4
ATGATATTTTCAACTTTAGAGCATATAT

clustal

代码语言:javascript
复制
CLUSTAL W (1.8) multiple sequence alignment (ALTER 1.3.3)


ccsA1           ATGATATTTTCAACTTTAGAGCATATAT
ccsA2           ATGATATTTTCAACTTTAGAGCATATAT
ccsA3           ATGATATTTTCAACTTTAGAGCATATAT
ccsA4           ATGATATTTTCAACTTTAGAGCATATAT
                ****************************

NEXUS

代码语言:javascript
复制
#NEXUS
BEGIN DATA;
dimensions ntax=4 nchar=28;
format missing=?
interleave=yes datatype=DNA gap=- match=.;

matrix
ccsA1       ATGATATTTTCAACTTTAGAGCATATAT
ccsA2       ATGATATTTTCAACTTTAGAGCATATAT
ccsA3       ATGATATTTTCAACTTTAGAGCATATAT
ccsA4       ATGATATTTTCAACTTTAGAGCATATAT

;
end;

PHYLIP

代码语言:javascript
复制
4 28
ccsA1       atgatatttt caactttaga gcatatat
ccsA2       atgatatttt caactttaga gcatatat
ccsA3       atgatatttt caactttaga gcatatat
ccsA4       atgatatttt caactttaga gcatatat

MEGA

代码语言:javascript
复制
#mega
TITLE: MSA converted with ALTER 1.3.3

#ccsA1       ATGATATTTT CAACTTTAGA GCATATAT
#ccsA2       ATGATATTTT CAACTTTAGA GCATATAT
#ccsA3       ATGATATTTT CAACTTTAGA GCATATAT
#ccsA4       ATGATATTTT CAACTTTAGA GCATATAT

不同的比对软件会输出不一样的比对格式;比对后分析用到的软件对输入格式的要求也不一样。比如序列比对我习惯使用MAFFT。MAFFT输出结果默认为fasta格式,clustal可选;如果后续需要使用MrBayes构建贝叶斯树,需要将其转化为NEXUS格式。这里推荐 ALTER http://www.sing-group.org/ALTER/ 来完成比对格式转化的任务。如果分析的序列不是很多,可以选择网页版;如果序列条数比较多可以选择安装本地版 https://github.com/sing-group/ALTER;按照安装步骤执行即可,自己的安装过程没有遇到报错;

安装步骤

代码语言:javascript
复制
git clone https://github.com/sing-group/ALTER.git
cd ALTER
mvn package

依赖

代码语言:javascript
复制
Git tool for cloning the last version
A Java Compiler and tool
The Maven tool

以上依赖软件都可以通过conda安装;关于conda的安装教程可以微信搜索教程价值999的全外显子教学视频--免费送

安装好以后执行

代码语言:javascript
复制
java -jar alter-lib/target/ALTER-1.3.4-jar-with-dependencies.jar help

# 输出结果
No argument is allowed: help
 -c (--collapse)              : Collapse sequences to haplotypes.
 -cg (--collapseGaps)         : Treat gaps as missing data when collapsing.
 -cl (--collapseLimit) N      : Connection limit (sequences differing at <= l si
                                tes will be collapsed) (default is l=0).
 -cm (--collapseMissing)      : Count missing data as differences when collapsin
                                g.
 -i (--input) FILE            : Input file.
 -ia (--inputAutodetect)      : Autodetect format (other input options are omitt
                                ed).
 -if (--inputFormat) VAL      : Input format (ALN, FASTA, GDE, MEGA, MSF, NEXUS,
                                 PHYLIP or PIR).
 -io (--inputOS) VAL          : Input operating system (Linux, MacOS or Windows)
                                .
 -ip (--inputProgram) VAL     : Input program (Clustal, MAFFT, MUSCLE, PROBCONS 
                                or TCoffee).
 -o (--output) FILE           : Output file.
 -of (--outputFormat) VAL     : Output format (ALN, FASTA, GDE, MEGA, MSF, NEXUS
                                , PHYLIP or PIR).
 -ol (--outputLowerCase)      : Lowe case output.
 -om (--outputMatch)          : Output match characters.
 -on (--outputResidueNumbers) : Output residue numbers (only ALN format).
 -oo (--outputOS) VAL         : Output operating system (Linux, MacOS or Windows
                                ).
 -op (--outputProgram) VAL    : Output program (jModelTest, MrBayes, PAML, PAUP,
                                 PhyML, ProtTest, RAxML, TCS, CodABC, BioEdit, M
                                EGA, dnaSP, Se-Al, Mesquite, SplitsTree, Clustal
                                , MAFFT, MUSCLE, PROBCONS, TCoffee, Gblocks, Sea
                                View, trimAl or GENERAL)
 -os (--outputSequential)     : Sequential output (only NEXUS and PHYLIP formats
                                ).

我自己将fasta格式转化为NEXUX格式

代码语言:javascript
复制
java -jar alter-lib/target/ALTER-1.3.4-jar-with-dependencies.jar -i ~/mingyan/practice_assorted/Myrtales_CP_genomes/another/Myrtales_cp_genome_aligned.fasta-gb -ia -o ./output.nex -of NEXUS -op MrBayes -oo Linux

# 运行结果
<INFO> : FASTA format detected.
<INFO> : MSA read in FASTA format (Taxa = 90, Length =  106571).
<INFO> : Nucleotide MSA type inferred.
<INFO> : MSA successfully converted to NEXUS format!
小工具对应的论文

ALTER: program-oriented conversion of DNA and protein alignments

期刊

Nucleic Acids Research 2010年

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-03-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 小明的数据分析笔记本 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 多序列比对结果可以存储为很多格式(Multiple sequence alignments can be stored in a large variety of formats.)
  • 比如最常见的:
    • Fasta
      • clustal
        • NEXUS
          • PHYLIP
            • MEGA
              • 安装好以后执行
              领券
              问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档