HiC数据分析实战之通过文章来了解流程

本来准备直接实战了,但是在看一些新的paper 时候发现我漏掉了hic技术应用的文章解读,我还是需要带领大家看看那些已经发表的好文章到底是如何处理hic数据的。

癌细胞的HIC文章

文章是 :3D genome of multiple myeloma reveals spatial genome disorganization associated with copy number variations 数据公布在:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE87585

北大李程课题组的研究人员比较了骨髓瘤细胞与正常B细胞之间的TAD的差异,在GM12878,RPMI8226与U266三个细胞系中,其分别得到了2756,3457,3342个TAD,其中有1281个TAD在三个细胞系中保守存在,740个TAD特异的存在于两种骨髓瘤细胞系中,这些数据表明在癌症细胞中TAD的结构会发生相当比例的改变,同时TAD的长度变小,数目增多。

作者进一步对骨髓瘤细胞与正常B细胞相比发生compartment改变区域内的基因进行了信号通路富集分析,结果表明,富集到的信号通路与骨髓瘤都密切相关,包括了MAPK,TNF,cytokine-cytokine受体相互作用等信号通路。

虽然本次我们讲解HiC,但事实上这个文章利用的各种数据比较多,包括:

我们关心的HiC数据

主要是4个HiC样本,如下:

GSM2334835: Hi-C U266 MboI; Homo sapiens; OTHER

GSM2334834: Hi-C U266 HindIII; Homo sapiens; OTHER

GSM2334833: Hi-C RPMI-8226 MboI; Homo sapiens; OTHER

GSM2334832: Hi-C RPMI-8226 HindIII; Homo sapiens; OTHER

查看其中一个数据:

数据量不小,想下载全部的4个hic样本来完全重复出来该文章的分析过程及结果对服务器计算资源的考验很大,

其分析结果包括:

然后再看其文章描述的数据处理步骤,作者使用了2013任兵教授的nature文章的数据分析方法:GSE43070. 简单点说,就是:

  • all Hi-C sequencing reads were mapped to the human reference genome (hg19) using Bowtie2
  • The two ends of paired-end reads were mapped independently using the first 36 bases of each read.
  • We filtered out redundant and non-uniquely mapped reads, and kept the reads within 500 bp upstream of enzyme cutting sites (HindIII or Mbol) due to the size selection.
  • We utilized the iterative correction and eigenvector decomposition (ICE) method and HiCNorm to normalize raw interaction matrices

好奇怪,里面没有用的hiclib也没有用hicpro软件,而且也没有走完我们第三讲总结好的那些流程。

看看数据处理的中间文件

我尝试下载了 HindIII_HiC_TAD_40kb.tar.gz 文件和HindIII_HiC_ice_matrix_500kb文件并且简单查看,如下:

mkdir -p ~/project/hic/data/myelom
cd ~/project/hic/data/data/myelom  
wget ftp://ftp.ncbi.nlm.nih.gov/geo/samples/GSM2334nnn/GSM2334834/suppl/GSM2334834_U266_HindIII_HiC_TAD_40kb.tar.gz
wget ftp://ftp.ncbi.nlm.nih.gov/geo/samples/GSM2334nnn/GSM2334834/suppl/GSM2334834_U266_HindIII_HiC_ice_matrix_500kb.tar.gz
tar zxvf GSM2334834_U266_HindIII_HiC_TAD_40kb.tar.gz
tar zxvf GSM2334834_U266_HindIII_HiC_ice_matrix_500kb.tar.gz

作者选择了40kb的分辨率来看这个CNVs and TADs 的关系。

使用R包HiTC来看500kb的分辨率下的compartments A/B switches and gene expression的关系。作者给出的分析结果文件是;

resolution_500k/cis/ice_normalization/
|-- [1007K]  chr10_500k_normalized_matrix.txt
|-- [1.0M]  chr11_500k_normalized_matrix.txt
|-- [1.0M]  chr12_500k_normalized_matrix.txt
|-- [621K]  chr13_500k_normalized_matrix.txt
|-- [508K]  chr14_500k_normalized_matrix.txt
|-- [3.1M]  chr1_500k_normalized_matrix.txt
|-- [469K]  chr15_500k_normalized_matrix.txt
|-- [393K]  chr16_500k_normalized_matrix.txt
|-- [373K]  chr17_500k_normalized_matrix.txt
|-- [366K]  chr18_500k_normalized_matrix.txt
|-- [198K]  chr19_500k_normalized_matrix.txt
|-- [229K]  chr20_500k_normalized_matrix.txt
|-- [ 93K]  chr21_500k_normalized_matrix.txt
|-- [ 90K]  chr22_500k_normalized_matrix.txt
|-- [1.4M]  chr23_500k_normalized_matrix.txt
|-- [ 68K]  chr24_500k_normalized_matrix.txt
|-- [3.5M]  chr2_500k_normalized_matrix.txt
|-- [2.3M]  chr3_500k_normalized_matrix.txt
|-- [1.9M]  chr4_500k_normalized_matrix.txt
|-- [1.9M]  chr5_500k_normalized_matrix.txt
|-- [1.7M]  chr6_500k_normalized_matrix.txt
|-- [1.5M]  chr7_500k_normalized_matrix.txt
|-- [1.2M]  chr8_500k_normalized_matrix.txt
`-- [940K]  chr9_500k_normalized_matrix.txt

这些txt文件总共是6206行,乘以500Kb的分辨率,也就对应着人类的3Gb的基因组大小。

其中的任何一个文件,都是可以拿出去画热图的,本身就是一个矩阵,我画21号染色体如下:

代码很简单,但是不知道图对不对以及图后面蕴含的生物学意义。

rm(list=ls())
options(stringsAsFactors = F)
a=read.table('~/GitBook/qc/chr21_500k_normalized_matrix.txt')
library(pheatmap)
pheatmap(a,cluster_rows = F,cluster_cols = F,labels_row = '',labels_col ='')

所以还需要慢慢学。

当然,作者还比较不同细胞系找到的TADs区别。

不过我们后面的实战演练,暂时不使用这个数据集。

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2018-07-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏云时之间

深度学习与应用:百度AI平台使用浅谈

最近因为对文本情感分析有一些需要,所以去学习使用了一下百度的NLP处理模块,特此记录一下,来和大家一起分享。

1774
来自专栏牛客网

蚂蚁金服一面面经

本来以为自己的简历不可能跳过笔试,所以最近在刷笔试题,没有怎么复习安卓,在加之有些紧张,凉凉,呜呜呜~~~~~~~ 阿里不给通知,毫无预兆的打过来电话面试,面试...

4786
来自专栏AI研习社

Github项目推荐 | 用于自然语言处理的开源 Python 库 —— PyTorch-NLP

PyTorch-NLP 是用于自然语言处理的开源 Python 库,它构建于最新的研究之上,可以帮助开发者快速开发原型。PyTorch 带有预训练嵌入(pre-...

2154
来自专栏iOSDevLog

ARKit示例 - 第4部分:现实主义 - 照明和PBR

在本文中,我们将在场景中插入更逼真的虚拟内容。我们可以通过使用称为基于物理的渲染(PBR)的技术使用更详细的模型来实现这一点,并且还可以更准确地表示场景中的光照...

883
来自专栏大数据挖掘DT机器学习

数据挖掘知识点总结(Microsoft 关联规则分析算法)

前言 本篇继续我们的微软挖掘算法系列总结,前几篇我们分别介绍了:Microsoft决策树分析算法、Microsoft聚类分析算法、Microsoft Naive...

3686
来自专栏C语言及其他语言

C语言网(dotcpp.com)Get新玩法

最近,不知道大家有没有注意咱们C语言网的变化(www.dotcpp.com) 最近一周,又有新功能新资源发布,下面给大家汇报: 评测结果有了详细的提示信息,除了...

3849
来自专栏木子昭的博客

InDesign转曲字体 导出PDF的技巧

2036
来自专栏机器之心

资源 | OpenAI开源机器人模拟Python库mujoco-py:可高效处理并行模拟

选自OpenAI 机器之心编译 参与:黄小天 OpenAI 宣布开源一个高性能的 Python 库,它可用于使用 MuJoCo 引擎(在上年的机器人研究中开发出...

3714
来自专栏PPV课数据科学社区

工具 | 一张图,教你用25种可视化工具如何完成

散点图真是一个比较神奇的图形,正如它的名字一样,一堆纷乱如麻的圆点,看似无迹可寻却能显示出数据难以显示的内在逻辑关系。很多人称它“万表之王”,它在数据分析师手...

4038
来自专栏灯塔大数据

技术 | 人生苦短,请用Python——10大Python库汇总

前言 对于码农来说,主要关注2017年新推出了哪些开源库,还有就是新近有什么流行的既能解决问题又好用的利器。下面就来为2017年做个总结。 1、Pipenv 第...

4259

扫码关注云+社区

领取腾讯云代金券