软件安装是生物信息实战中最基础的技能之一,只有确保软件安装无误,后续使用起来才会得心应手,不会有很多的bug。juicer软件提供了Hi-C数据一键化分析的pipeline, 这样高度的封装使得用户操作起来更加简便,当然分析能力强大的同时其依赖的软件就会越多,安装过程的复杂程度也会有所提高,本文主要记录下该软件的安装过程,可以分为以下几个步骤
juicer核心采用java语言进行开发,同时内置了perl, python, bash等开发的脚手架脚本。在序列比对环节使用了bwa软件,而后续操作比对产生的bam文件,会用到samtools软件。所以需要安装以下软件
这些软件是生信领域的基本软件,其安装过程就不详细展开了。
juicer软件要求一个固定的目录结构,新建一个名为juicer
的目录,该目录即为软件的安装目录,在该目录下必须有以下4个子目录
references
目录用于存放参考基因组相关文件,work
用于存放样本的序列文件和分析结果,scripts
用于存放软件运行所需的脚本,restriction_sites
用于存放参考基因组酶切图谱。
从github上下载juicer和jcuda的源代码,放置到scripts
目录下。juicer可以在单机或者集群系统上运行,其中间脚本也对应了不同的系统,示意如下
其中的CPU
目录就是单机服务器,而AWS
, LSF
, PBS
等对应公有云和不同的集群系统。以CPU
为例,下载过程如下
# 下载源代码
git clone https://github.com/aidenlab/juicer.git
# 重命名为scripts目录
ln -s juicer/CPU scripts
cd scripts/common
wget https://hicfiles.tc4ga.com/public/juicer/juicer_tools.1.9.9_jcuda.0.8.jar
ln -s juicer_tools.1.9.9_jcuda.0.8.jar juicer_tools.jar
在reference
目录下为参考基因组相关文件,其实就是对应的fasta序列文件和bwa 索引,示意如下
hg19.fasta
hg19.fasta.sa
hg19.fasta.ann
hg19.fasta.amb
hg19.fasta.pac
hg19.fasta.bwt
自己根据需要从UCSC,NCBI等数据库中下载基因组fasta文件,并用bwa建立索引就可以了。
在restriction_sites
目录下参考基因组酶切图谱,通过jucier内置的generate_site_positions.py
脚本可以产生,该脚本位于源代码中的misc
目录下,支持直接输出以下4种内切酶的酶切图谱
用法如下
generate_site_positions.py HindIII hg19 hg19.fasta
第一个参数为内切酶的名称,第二个参数为自定义的基因组版本,第三个参数为基因组fasta文件的路径,输出文件的名称为第二个参数和第一个参数用下划线链接,后缀为txt
, 上述代码的输出文件为
hg19_HindIII.txt
执行完前4步软件就已经安装好了,软件运行时对样本文件的存放位置也有要求,必须位于work
目录下,以样本名作为一个子目录,序列文件存放于fastq
目录下,示意如下
/opt/juicer/work/MBR19/fastq
/opt/juicer/work/MBR19/fastq/chr19_R1.fastq.gz
/opt/juicer/work/MBR19/fastq/chr19_R2.fastq.gz
关于安装成功后的目录结构,可以参考以下链接
https://bcm.app.box.com/v/juicerawsmirror/folder/11284128669
juicer的安装过程算不上复杂,就是注意事项有很多,操作起来较为繁琐,只需要按照以上步骤耐心操作,还是可以快速安装成功的。