上期介绍了植物miRNA的鉴定标准, 通过这些标准就可以通过sRNA-Seq对植物的miRNA进行鉴定, 但自己通过写代码完成这个标准不仅费时费力,而且还会出现考虑不周的情况。本期介绍一款2019年发表在bioinformatics上的植物miRNA鉴定软件miRDP-2, 它不仅通过上期介绍的miRNA鉴定标准进行miRNA的鉴定,而且相比其它软件具有更快的运行速度以及更加准确的miRNA鉴定率。具体性能图如下所示:
01
具体流程介绍
miRDP-2是miRDP的升级版,所以miRDP-2的miRNA鉴定流程基本上和miRDP是一致的,miRDP的流程如下所示:
miRDP-2对miRDP的参数进行了优化,在过滤阶段只保留19-24nt的sRNA, 并且sRNA的表达量要大于等于10RPM(RPM是衡量sRNA表达量的一种方法)。这样减少了软件的运算量, 加快了软件的运行速度。另外改变的地方就是提取参考基因组序列进行RNA二级结构预测的时候的长度为300nt,而不在是250nt了。
02
安装
miRDP-2在比对以及RNA二级结构预测方面依赖其它软件因此在安装之前必须先对这些依赖的软件进行安装。比对依赖的软件为bowtie或者bowite2,安装任何一个都可以,但一般像sRNA这种短reads推荐使用bowtie进行比对。RNA二级结构预测依赖的软件为Vienna。安装完依赖的软件后,从https://sourceforge.net/projects/mirdp2/下载miRDP-2以及ncRNA_rfam.tar.gz(用于非miRNA的sRNA过滤)。然后分别对miRDP-2-v1.1.1.tar.gz以及ncRNA_rfam.tar.gz进行解压缩。并对Rfam的序列用bowtie或者bowtie2建立索引,用于非miRNA的sRNA过滤。具体命令行如下所示:
cp miRDP2-v1.1.1.tar.gz ~/software/
# 通过tar对miRDP2-v.1.1.1进行解压缩
tar –xvf miRDP2-v1.1.1.tar.gz
# 修改文件夹名字为miRDP2-v1.1.1用于和其他软件进行区分
mv 1.1.1 miRDP2-v1.1.1
# 通过tar对ncRNA_rfam.tar.gz进行解压缩
tar -xvf ncRNA_rfam.tar.gz
# 通过bowtie-build对ncRNA_rfam.fa进行索引建立
bowtie-build ncRNA_rfam.fa ~/software/miRDP2-v1.1.1/scripts/index/rfam_index
注:Rfam序列建立的索引必须放到miRDP2软件的script目录下的index目录,并且索引名字必须为rfam_index。
03
运行
首先建立测试文件夹
mkdir miRDP2_test
然后将测试数据TestData.tar.gz复制到测试文件夹并进行解压
tar -xvf TestData.tar.gz
对参考基因组建立索引
bowtie-build TestData/TAIR10_genome.fa TAIR10
运行miRDP-2
miRDP2-v1.1.1_pipeline.bash -g TestData/TAIR10_genome.fa -i TAIR10 -f TestData/GSM2094927.fa -o ./
# -g为输入的基因组文件
# -i为bowtie建立的基因组索引前缀
# -f为输入的sRNA测序文件
# -o为输出的文件夹
miRDP2运行完会生成一个GSM2094927-15-0-10的文件夹,miRNA的预测结果是位于该文件夹下的GSM2094927-15-0-10_filter_P_prediction, 每列的内容分别为染色体名字、miRNA所在的DNA链、代表性的reads编号、miRNA前体的编号、前体的位置、成熟序列以及前体序列。具体的结果如下所示:
小结
最后对miRDP-2软件进行小结,总得来说miRDP-2还是很方便的,只需运行一个命令就可以完成miRNA的鉴定。但还是有点小缺点,一个是鉴定的结果中没有对已知的miRNA进行注释,另一个是不支持sRNA-Seq去接头的功能。对于有接头的sRNA-seq文库需要通过cutadapt去过接头之后再通过miRDP-2进行miRNA的鉴定。
参考文献
Kuang, Z., Wang, Y., Li, L., and Yang, X. (2018). miRDeep-P2: accurate and fast analysis of the microRNA transcriptome in plants Bioinformatics 35, 2521–2522.
Yang, X., and Li, L. (2011). miRDeep-P: a computational tool for analyzing the microRNA transcriptome in plants. Bioinformatics 27, 2614-2615.