前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >HiC数据分析实战之通过文章来了解流程

HiC数据分析实战之通过文章来了解流程

作者头像
生信技能树
发布2018-08-06 15:35:04
2.6K0
发布2018-08-06 15:35:04
举报
文章被收录于专栏:生信技能树生信技能树

本来准备直接实战了,但是在看一些新的paper 时候发现我漏掉了hic技术应用的文章解读,我还是需要带领大家看看那些已经发表的好文章到底是如何处理hic数据的。

癌细胞的HIC文章

文章是 :3D genome of multiple myeloma reveals spatial genome disorganization associated with copy number variations 数据公布在:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE87585

北大李程课题组的研究人员比较了骨髓瘤细胞与正常B细胞之间的TAD的差异,在GM12878,RPMI8226与U266三个细胞系中,其分别得到了2756,3457,3342个TAD,其中有1281个TAD在三个细胞系中保守存在,740个TAD特异的存在于两种骨髓瘤细胞系中,这些数据表明在癌症细胞中TAD的结构会发生相当比例的改变,同时TAD的长度变小,数目增多。

作者进一步对骨髓瘤细胞与正常B细胞相比发生compartment改变区域内的基因进行了信号通路富集分析,结果表明,富集到的信号通路与骨髓瘤都密切相关,包括了MAPK,TNF,cytokine-cytokine受体相互作用等信号通路。

虽然本次我们讲解HiC,但事实上这个文章利用的各种数据比较多,包括:

我们关心的HiC数据

主要是4个HiC样本,如下:

GSM2334835: Hi-C U266 MboI; Homo sapiens; OTHER

GSM2334834: Hi-C U266 HindIII; Homo sapiens; OTHER

GSM2334833: Hi-C RPMI-8226 MboI; Homo sapiens; OTHER

GSM2334832: Hi-C RPMI-8226 HindIII; Homo sapiens; OTHER

查看其中一个数据:

数据量不小,想下载全部的4个hic样本来完全重复出来该文章的分析过程及结果对服务器计算资源的考验很大,

其分析结果包括:

然后再看其文章描述的数据处理步骤,作者使用了2013任兵教授的nature文章的数据分析方法:GSE43070. 简单点说,就是:

  • all Hi-C sequencing reads were mapped to the human reference genome (hg19) using Bowtie2
  • The two ends of paired-end reads were mapped independently using the first 36 bases of each read.
  • We filtered out redundant and non-uniquely mapped reads, and kept the reads within 500 bp upstream of enzyme cutting sites (HindIII or Mbol) due to the size selection.
  • We utilized the iterative correction and eigenvector decomposition (ICE) method and HiCNorm to normalize raw interaction matrices

好奇怪,里面没有用的hiclib也没有用hicpro软件,而且也没有走完我们第三讲总结好的那些流程。

看看数据处理的中间文件

我尝试下载了 HindIII_HiC_TAD_40kb.tar.gz 文件和HindIII_HiC_ice_matrix_500kb文件并且简单查看,如下:

代码语言:javascript
复制
mkdir -p ~/project/hic/data/myelom
cd ~/project/hic/data/data/myelom  
wget ftp://ftp.ncbi.nlm.nih.gov/geo/samples/GSM2334nnn/GSM2334834/suppl/GSM2334834_U266_HindIII_HiC_TAD_40kb.tar.gz
wget ftp://ftp.ncbi.nlm.nih.gov/geo/samples/GSM2334nnn/GSM2334834/suppl/GSM2334834_U266_HindIII_HiC_ice_matrix_500kb.tar.gz
tar zxvf GSM2334834_U266_HindIII_HiC_TAD_40kb.tar.gz
tar zxvf GSM2334834_U266_HindIII_HiC_ice_matrix_500kb.tar.gz

作者选择了40kb的分辨率来看这个CNVs and TADs 的关系。

使用R包HiTC来看500kb的分辨率下的compartments A/B switches and gene expression的关系。作者给出的分析结果文件是;

代码语言:javascript
复制
resolution_500k/cis/ice_normalization/
|-- [1007K]  chr10_500k_normalized_matrix.txt
|-- [1.0M]  chr11_500k_normalized_matrix.txt
|-- [1.0M]  chr12_500k_normalized_matrix.txt
|-- [621K]  chr13_500k_normalized_matrix.txt
|-- [508K]  chr14_500k_normalized_matrix.txt
|-- [3.1M]  chr1_500k_normalized_matrix.txt
|-- [469K]  chr15_500k_normalized_matrix.txt
|-- [393K]  chr16_500k_normalized_matrix.txt
|-- [373K]  chr17_500k_normalized_matrix.txt
|-- [366K]  chr18_500k_normalized_matrix.txt
|-- [198K]  chr19_500k_normalized_matrix.txt
|-- [229K]  chr20_500k_normalized_matrix.txt
|-- [ 93K]  chr21_500k_normalized_matrix.txt
|-- [ 90K]  chr22_500k_normalized_matrix.txt
|-- [1.4M]  chr23_500k_normalized_matrix.txt
|-- [ 68K]  chr24_500k_normalized_matrix.txt
|-- [3.5M]  chr2_500k_normalized_matrix.txt
|-- [2.3M]  chr3_500k_normalized_matrix.txt
|-- [1.9M]  chr4_500k_normalized_matrix.txt
|-- [1.9M]  chr5_500k_normalized_matrix.txt
|-- [1.7M]  chr6_500k_normalized_matrix.txt
|-- [1.5M]  chr7_500k_normalized_matrix.txt
|-- [1.2M]  chr8_500k_normalized_matrix.txt
`-- [940K]  chr9_500k_normalized_matrix.txt

这些txt文件总共是6206行,乘以500Kb的分辨率,也就对应着人类的3Gb的基因组大小。

其中的任何一个文件,都是可以拿出去画热图的,本身就是一个矩阵,我画21号染色体如下:

代码很简单,但是不知道图对不对以及图后面蕴含的生物学意义。

代码语言:javascript
复制
rm(list=ls())
options(stringsAsFactors = F)
a=read.table('~/GitBook/qc/chr21_500k_normalized_matrix.txt')
library(pheatmap)
pheatmap(a,cluster_rows = F,cluster_cols = F,labels_row = '',labels_col ='')

所以还需要慢慢学。

当然,作者还比较不同细胞系找到的TADs区别。

不过我们后面的实战演练,暂时不使用这个数据集。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-07-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 癌细胞的HIC文章
    • 看看数据处理的中间文件
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档