前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >metaphlan物种分类鉴定

metaphlan物种分类鉴定

作者头像
生信喵实验柴
发布2023-02-24 13:16:35
2K0
发布2023-02-24 13:16:35
举报
文章被收录于专栏:生信喵实验柴

一、metaphlan简介

MetaPhlAn 是用于二代测序物种分类的工具,只需一条命令即可得到宏基因组物种分类的列表,以及相对丰度信息,使用起来非常方便。目前最新版本是 metaphlan3.0。

metaphlan 是利用快速比对工具 bowtie2 与 Marker 基因集进行比对,而非全基因组序列,因此运行速度非常快。直接输入 kneaddata 质控过滤后的数据,即可快速获得微生物群体中种水平精度的组成,包括细菌、古菌、真核生物和病毒。

metaphlan 输出的文件格式是一种非常通用的列表格式,非常方便下游软件进行进一步处理。

主页:

代码语言:javascript
复制
http://segatalab.cibio.unitn.it/tools/metaphlan/index.html

帮助文档:

代码语言:javascript
复制
https://github.com/biobakery/MetaPhlAn/wiki/MetaPhlAn-3.0

官方网址:

代码语言:javascript
复制
http://huttenhower.sph.harvard.edu/metaphlan3

二、软件运行

metaphlan 调用 bowtie2 进行比对,可以输入多种格式结果,例如.fasta, .fastq,bowtie2out 和 sam 等。这里拿之前下载的一个案例 SRS011243 为例。

代码语言:javascript
复制
cp ./kneaddata_output/SRS011243.denovo_duplicates_marked.trimmed.1_kneaddata_paired_1.fastq SRS011243_1.fq
cp ./kneaddata_output/SRS011243.denovo_duplicates_marked.trimmed.2_kneaddata_paired_1.fastq SRS011243_2.fq
pigz SRS011243_1.fq SRS011243_2.fq

conda activate mpa
#检查下环境中metaphlan_database之前下载的,是否解压缩了
metaphlan --input_type fastq --nproc 12 --bowtie2out metagenome.bowtie2.bz2 SRS011243_1.fq.gz,SRS011243_1.fq.gz -o SRS011243.txt
#还是在下载数据库
Downloading http://cmprod1.cibio.unitn.it/biobakery4/metaphlan_databases/mpa_latest
Downloading http://cmprod1.cibio.unitn.it/biobakery4/metaphlan_databases/mpa_vJan21_CHOCOPhlAnSGB_202103.tar
#中途断了就加上之前下载好的数据库索引如下
--index ~/Software/miniconda3/envs/mpa/lib/python3.7/site-packages/metaphlan/metaphlan_databases/mpa_vJan21_CHOCOPhlAnSGB_202103 #加上刚才下载的数据库索引
#bsub -q fat -n 12 -o %J.log -e %J.err sh meta.sh

三、结果解读

默认输出的结果分为两列,用制表符分割,第一列为物种分类 clades,按照物种很累层级进行排列。每个层级用前缀开头,Kingdom: k__, Phylum: p__, Class: c__, Order: o__, Family: f__, Genus: g__, Species: s__.。第二列是物种对应的相对丰度,不是原始 reads数,所以,每一个层级累积起来总和都为 100%,有些软件输出的是绝对的 reads 数目。

metaphlan 物种分类结果

代码语言:javascript
复制
#循环处理
#一、首先是kneaddata质控
cat /share/home/xiehs/17.meta/data/hmp/metadata.txt | awk '{if (NR > 1) print $1}' | while read i;do echo "kneaddata  -i1 /share/home/xiehs/17.meta/data/hmp/input/${i}/${i}.denovo_duplicates_marked.trimmed.1.fastq -i2 /share/home/xiehs/17.meta/data/hmp/input/${i}/${i}.denovo_duplicates_marked.trimmed.2.fastq -db /share/home/xiehs/17.meta/database/kneadData_databases/human_genome_bowtie2/Homo_sapiens -o ${i}kneaddata_output --remove-intermediate-output -v -t 12 --trimmomatic /share/home/xiehs/Software/miniconda3/envs/biobakery/share/trimmomatic/ --trimmomatic-options 'ILLUMINACLIP:/share/home/xiehs/Software/miniconda3/envs/biobakery/share/trimmomatic/adapters/TruSeq3-PE.fa:2:40:15 SLIDINGWINDOW:4:20 MINLEN:50' --reorder --bowtie2-options '--very-sensitive --dovetail' --run-fastqc-start --run-fastqc-end" >>kne.sh;done;
#echo "parallel -j 4 -a kne.sh" >para.sh
#集群使用32线程
#bsub -q fat -n 48 -o %J.log -e %J.err sh para.sh
#二、跑metaphlan鉴定

cat /share/home/xiehs/17.meta/data/hmp/metadata.txt | awk '{if (NR > 1) print $1}' | while read i;do echo "metaphlan --index ~/Software/miniconda3/envs/mpa/lib/python3.7/site-packages/metaphlan/metaphlan_databases/mpa_vJan21_CHOCOPhlAnSGB_202103 --input_type fastq --nproc 12 /share/home/xiehs/17.meta/illumina/${i}kneaddata_output/${i}.denovo_duplicates_marked.trimmed.1_kneaddata_paired_1.fastq,/share/home/xiehs/17.meta/illumina/${i}kneaddata_output/${i}.denovo_duplicates_marked.trimmed.1_kneaddata_paired_2.fastq --bowtie2out ${i}.bowtie2.bz2 -o ${i}.txt" >>met.sh;done;
#集群使用12线程
#bsub -q fat -n 12 -o %J.log -e %J.err sh met.sh
#结果就是20个txt
#合并
merge_metaphlan_tables.py *txt >../merged_abundance_table.txt
#合并后的物种分类表txt就可以直接去R中处理了。

写在最后:有时间我们会努力更新的。大家互动交流可以前去论坛,地址在下面,复制去浏览器即可访问,弥补下公众号没有留言功能的缺憾。

代码语言:javascript
复制
bioinfoer.com

有些板块也可以预设为大家日常趣事的分享等,欢迎大家来提建议。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-11-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信喵实验柴 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档