get_organelle_from_reads.py -1 sample_1.fastq.gz -2 sample_2.fastq.gz -F embplant_pt -o output-plastome -R 10 -t 1 -k 21,45,65,85,105
-1和-2
正向和反向测序原始数据文件 (如果是单向测序, -u
)-F
设定要组装的基因组类型*-o
结果输出保存的目录(文件夹)名称-R
提取叶绿体基因 reads 的轮次(轮次越多,耗时越长)-t
并行使用 CPU 的数量(多核可提速)-k
调用SPAdes进行 denovo组装的k-mer,数值必须是奇数, 最大值是127*基因组类型:embplant_pt(高等植物叶绿体), embplant_mt(高等植物线粒体)和 embplant_nr(高等植物核糖体 RNA), animal_mt (动物线粒体), fungus_mt (真菌线粒体)
get_organelle_from_reads.py -1 sample_1.fastq.gz -2 sample_2.fastq.gz -F embplant_pt -w 0.6 -o output-plastome -R 10 -t 1 -k 21,45,65,85,105
-1和-2
正向和反向测序原始数据文件(如果是单向测序,-u
)-F
设定要组装的基因组类型-o
结果输出保存的目录(文件夹)名称-R
提取叶绿体基因 reads 的轮次(轮次越多,耗时越长)-t
并行使用 CPU 的数量(多核可提速),默认值是1-k
调用SPAdes进行 denovo组装的k-mer,数值必须是奇数,最大值是127-w
提取叶绿体基因reads 时使用的长度比例或实际长度**word-size:提取叶绿体基因reads 时,可以使用reads 长度的比例(ratio),也可以设置实际长度的word-size。例如:如果使用ratio=0.6, 即 reads长度是150bp时,设置的word-size = 90bp,等同于设置 “-w 90”。
get_organelle_from_reads.py -1 sample_1.fastq.gz -2 sample_2.fastq.gz -w 0.6 -F embplant_mt -o output-mitochondria -R 30 -k 21,45,65,85,105
get_organelle_from_reads.py -1 sample_1.fastq.gz -2 sample_2.fastq.gz -F embplant_nr -o output-nrDNA -R 10 -k 21,65,105
get_organelle_from_assembly.py -g assembly_graph.fastg -F embplant_pt -o output-plastome
-g
SPAdes组装得到的FASTG的assembly graph-F
设定要组装的基因组类型-o
结果输出保存的目录(文件夹)名称get_organelle_from_assembly.py -g assembly_graph.fastg -F embplant_pt -o output-plastome --min-depth 10 --max-depth 10000
-g
SPAdes组装得到的FASTG的assembly graph-F
设定要组装的基因组类型-o
结果输出保存的目录(文件夹)名称--min-depth
剔除graph中depth低于阈值的contigs--max-depth
剔除graph中depth高于阈值的contigs--min-depth 10
”和“--max-depth10000”这两条命令是备选的,具体的depth需要可以自行设定。两步命令:
gfa_to_fastg.py graph.gfa
get_organelle_from_assembly.py -g graph.gfa.fastg -F embplant_pt -o output-plastome --no-slim
-g
Bandage梳理后转换为fastg的graph*-F
设定要组装的基因组类群:embplant_pt(叶绿体),embplant_mt(线粒体)和embplant_nr(核糖体 RNA)-o
结果输出保存的目录(文件夹)名称*,使用Bandage编辑后,可以“merge all possible nodes”,然后再输出的文件格式gfa图形文件,gfa文件可以用gfa_to_fastg.py做一下转换。虽然gfa也是图形文件,但是图形内容与fastg有差异些复杂图形会输出失败。
欢迎大家关注我的公众号
小明的数据分析笔记本
小明的数据分析笔记本 公众号 主要分享: 1、R语言和python做数据分析和数据可视化的简单小例子; 2、园艺植物相关转录组学、基因组学、群体遗传学文献阅读笔记; 3、生物信息学入门学习资料及自己的学习笔记!