前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >HiC-Pro实战详解

HiC-Pro实战详解

作者头像
生信修炼手册
发布2019-12-19 18:37:33
2.3K0
发布2019-12-19 18:37:33
举报
文章被收录于专栏:生信修炼手册生信修炼手册

HiC-Pro软件非常灵活,不仅可以处理各种不同建库方式的Hi-C数据,也可以处理capture Hi-C数据。软件安装过程如下

代码语言:javascript
复制
yum install -y epel-release
# R
yum install -y R
R
install.packages(c("ggplot2", "RColorBrewer"))
# python
yum install -y gcc gcc-c++ make
yum install -y python2 python-devel  python2-pip 
pip install pysam
pip install "scipy<1"
pip install bx-python
# bowtie2
yum  install -y wget
wget https://sourceforge.net/projects/bowtie-bio/files/bowtie2/2.3.4.1/bowtie2-2.3.4.1-linux-x86_64.zip
unzip bowtie2-2.3.4.1-linux-x86_64.zip
# samtools
yum install bzip2 bzip2-devel libcurl libcurl-devel ncurses-devel openssl openssl-devel
wget https://github.com/samtools/samtools/releases/download/1.6/samtools-1.6.tar.bz2
tar xjvf  samtools-1.6.tar.bz2
cd samtools-1.6/
./configure
make
make install
# HiC-Pro
wget https://github.com/nservant/HiC-Pro/archive/v2.11.1.tar.gz
tar xzvf v2.11.1.tar.gz
cd HiC-Pro-2.11.1
make configure
make install

安装好之后,需要准备以下几种参考物种的相关文件

1. 酶切图谱

通过软件自带的脚本可以产生基因组对应的酶切图谱,输入内切酶的名称或者酶切位点序列都可以,用法如下

代码语言:javascript
复制
digest_genome.py -r A^AGCTT -o mm9_hindiii.bed mm9.fasta
digest_genome.py -r hindiii -o mm9_hindiii.bed mm9.fasta
2. 参考基因组索引

软件采用bowtie2将reads比对到参考基因组上,所以需要对基因组的fasta文件建立索引,用法如下

代码语言:javascript
复制
bowtie2-build hg19.fasta hg19
3. 染色体长度文件

从UCSC下载染色体长度文件,或者自己根据fasta序列统计长度都可以,该文件内容如下

代码语言:javascript
复制
chr1    249250621
chr2    243199373
chr3    198022430
chr4    191154276

这里我们用官网提供的测试数据展示下基本用法,首先下载测试数据

代码语言:javascript
复制
wget --no-check-certificate https://zerkalo.curie.fr/partage/HiC-Pro/HiCPro_testdata.tar.gz
tar xzcf HiCPro_testdata.tar.gz

HiC-Pro的所有参数都记录在配置文件中,安装目录提供了配置文件的模板config_test_latest.txt`, 在此基础上进行编辑就可以了。常见的需要配置的参数如下

代码语言:javascript
复制
BOWTIE2_IDX_PATH = /data/annotation/Human/hg19/base
REFERENCE_GENOME = hg19
GENOME_SIZE = chrom_hg19.sizes
GENOME_FRAGMENT = HindIII_resfrag_hg19.bed
LIGATION_SITE = AAGCTAGCTT

对于这个测试文件,只需要编辑bowtie2索引所在目录就可以了,编辑好之后直接运行,用法如下

代码语言:javascript
复制
HiC-Pro -i test_data/ -o out_dir -c config_test_latest.txt

用法非常简单,-i参数指定样本fastq文件文件所在目录,-o参数指定输出结果的目录,-c参数指定配置文件的名称。

对于fastq文件所在目录,结构如下所示

代码语言:javascript
复制
├── dixon_2M
│   ├── SRR400264_00_R1.fastq.gz
│   └── SRR400264_00_R2.fastq.gz
└── dixon_2M_2
    ├── SRR400264_01_R1.fastq.gz
    └── SRR400264_01_R2.fastq.gz

每个样本一个子文件夹,下面是对应的双端测序的fastq文件。输出结果目录如下

代码语言:javascript
复制
|-- bowtie_results
|-- config_test_latest.txt
|-- hic_results
|-- logs
|-- rawdata -> /HiC-Pro-2.11.1/test_data/
`-- tmp

其中hic_results目录下是最终结果,包含了不同分辨率下的hi-c图谱和质控的图表。

·end·

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-05-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信修炼手册 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 酶切图谱
  • 2. 参考基因组索引
  • 3. 染色体长度文件
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档