前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >linux上简单好用的并行软件ParaFly

linux上简单好用的并行软件ParaFly

作者头像
阿凡亮
发布2020-04-14 09:10:10
2.9K0
发布2020-04-14 09:10:10
举报
文章被收录于专栏:生物信息学生物信息学

很多时候生信工作者处理多个文件,对每个文件做的操作都是一样的,这个时候,写一个for循环串行处理可能就行了。但有时候串行操作耗时较久,例如做个bwa mem比对,如果一个一个文件处理,时间就是累加的。

一般我们都是在服务器上跑任务,服务器都是多核心多线程的,再不济也是自己的多核多线程笔记本,其实可以让任务并行的跑起来。

例如使用htop查看,下面是40核的服务器,空闲的核需要的时候利用起来比较好,省时省力:

今天给大家介绍一个很好用的小工具ParaFly,只需要很简单的操作就可以让linux上的任务并行化。

首先使用anconda3安装ParaFly,

代码语言:javascript
复制
$ conda install -c bioconda parafly

查看一下怎么用:

代码语言:javascript
复制
$ ParaFly -h
############################################################ Usage: ParaFly (opts)## Required: #   -c <str>              :filename containing list of bash-style commands to execute.#   -CPU <int>            :number_of_threads## Optional:#   -shuffle              :randomly shuffles the command order. #   -failed_cmds <str>    :filename to capture failed commands.  default("FailedCommands")#   -v                    :simple progress monitoring.#   -vv                   :increased verbosity in progress monitoring.###########################################################
Note: This process creates a file named based style="margin: 0px; padding: 0px; color: rgb(202, 125, 55);">with a .completed extension.This enables a resume functionality, where if rerun, only those commands not completed successfully will be reprocessed.

可以看出必须参数(Required)只有2个,说明这个工具使用起来非常简单。事实上,只需要把需要操作的命令写在一个文件里面,使用-c指定这个文件,-CPU指定并行的总核数(需要同时执行几条命令)即可。

默认成功执行的命令,对应的命令行会输出到文件名加.completed后缀的文件,没有成功执行的命令会输出到FailedCommands文件。

代码语言:javascript
复制
ParaFly: Simple parallel unix command processing using OpenMPParaFly provides a simple mechanism for running a predefined list of unix commands in parallel using multithreading. Failed processes are captured and reported. Successfully executed processes are noted. If the process is rerun, style="margin: 0px; padding: 0px; color: rgb(202, 125, 55);">or failed processes will be executed.

简单举个例子:

fastq-dump拆分三个SRA文件,可以把这三条命令写到fastq_dump.txt文件里面:

代码语言:javascript
复制
$ cat fastq_dump.txtfastq-dump --split-3 SRR1510125.1fastq-dump --split-3 SRR1004284.1fastq-dump --split-3 SRR1004285.1

之后使用ParaFly并行化:

代码语言:javascript
复制
$ ParaFly -c fastq_dump.txt -CPU 3

服务器会同时用三个核分别来运行这三条命令,ParaFly结果文件:

代码语言:javascript
复制
$ cat fastq_dump.txt.completedfastq-dump --split-3 SRR1004285.1fastq-dump --split-3 SRR1004284.1fastq-dump --split-3 SRR1510125.1

总体来看ParaFly方便易学,比linux自带的parallel更易上手,大家在linux上做多任务处理时可以考虑加入它的使用,会大大的缩短数据处理时间。

END

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-12-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生物信息学 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档