专栏首页生信技能树表观调控13张图之五chip-seq数据直接的相关性

表观调控13张图之五chip-seq数据直接的相关性

前面我们讲过了关于样本间转录组数据 RNA-seq 相关性的计算,今天我们将讲述关于样本 ChIP-seq 数据之间的相关性怎么算?

为什么这里又要重新写一章节呢?我们都知道 RNA-seq 数据中的 reads 主要集中基因上, 所以我们可以通过计算基因上的 reads 来查看样本之间的相关性如何?但是 ChIP-seq 并不是这样,不同修饰、转录因子等的数据在基因组上富集是不一样的。

举个例子,拿 2013 年中的一篇文章( Zhou Du et al., 2013 )来说,我们可以看到 Peak 不仅仅只是分布在 Gene ( intron + 5'UTR + 3'UTR + conding exon ) 区间,而且还有相当一部分分布在 IntergenicPromoter 区域。当然如果你如果都不了解 Peak 是什么,那就请补点 ChIP-seq 的基础知识了。(其实我们通过前面章节的 Peak 注释就应该理解了为什么和 RNA-seq 不同)

我们可以通过使用 deeptools 将全基因组分成若干个 xx bin 长度的区间。

我们在计算 ChIP-seq 相关性时候,有两种情况,当我们数据没有重复时候,对样本直接进行相关性计算即可;

不合并样本,检测样本相关性

在 linux 环境下得到矩阵(也可以出图,但是我们一般是只要数据,图自己画)

# https://deeptools.readthedocs.io/en/develop/content/tools/multiBigwigSummary.html
# https://deeptools.readthedocs.io/en/develop/content/tools/plotCorrelation.html
multiBigwigSummary  bins -b  *WT*bw  -o wt_results.npz -p 8

plotCorrelation -in wt_results.npz  \
--corMethod spearman --skipZeros \
--plotTitle "Spearman Correlation of Read Counts" \
--whatToPlot heatmap --colorMap RdYlBu --plotNumbers \
--plotFileFormat pdf \
-o heatmap_SpearmanCorr_readCounts.pdf   \
--outFileCorMatrix SpearmanCorr_readCounts.tab

在 R 中进行可视化

rm(list = ls())
options(stringsAsFactors = F)
a = read.table('SpearmanCorr_readCounts.tab')
pheatmap::pheatmap(a)
library(stringr)
ac = data.frame(group=str_split(rownames(a), '_', simplify = T)[,1])
rownames(ac) = colnames(a)
M = a
pheatmap::pheatmap(M,
                   annotation_col = ac) 

我们可以看到只有样本 Ez 几个重复聚集在一起,其他的并不是很好,也有可能是我们之前得到 bw 文件那一步的计算方法原因,但是代码是没有问题的。比如也有方法只计算 peak 区域的 Peak ,然后计算样本间的相关性等等。

当我们有多个重复时候,我们可以先检验样品内相关是否高?然后再将一个样品的所有重复再合并进行下游分析。

合并样本( 前提是是你样品内重复性够好才进行合并 )。

# 虽然我们可以看到前面只有第一个样本内的重复性够好,但是进行下面这一步纯粹是假设所有样本内相关性够好,才将所有重复合并为一个,再计算相关性,这里纯粹的生物学意义不是很大。计算方法以及绘图和前面都一样

# 都是基于 bw 文件,分 bin,然后计算相关性,用 R 绘图。

# NGS 很多分析方法都是相同的,就看你怎么理解了
multiBigwigSummary  bins -b    *WT*bw  -o wt_merge_results.npz -p 8

plotCorrelation -in wt_merge_results.npz  \
--corMethod spearman --skipZeros \
--plotTitle "Spearman Correlation of Read Counts" \
--whatToPlot heatmap --colorMap RdYlBu --plotNumbers \
--plotFileFormat pdf \
-o merge_heatmap_SpearmanCorr_readCounts.pdf   \
--outFileCorMatrix merge_SpearmanCorr_readCounts.tab

在 R 中进行可视化

a = read.table('merge_SpearmanCorr_readCounts.tab')
pheatmap::pheatmap(a)

我们这里纯粹的教大家怎么去解决这一类的问题,授人以鱼不如授人以渔。重要的是大家要通过从中了解到清楚遇到这种应该怎么去实现,只要我们了解了此类的问题的相关关键词,你搜索的时候就能大大精确得到你想要的结果。好了,下期再见。

本文分享自微信公众号 - 生信技能树(biotrainee),作者:生信技能树

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-01-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 用R玩转微店汇总报表

    (这个地方就很符合jimmy大神的价值观:只允许用打开R-project的方式打开Rstudio,小本本记下来,小心被怼)

    生信技能树
  • ChIP‐Atlas(逆向收费读文献2019-21)

    本次分享的文献发表了一个网页数据库,把其它数据库(GEO, ArrayExpress, DDBJ, ENCODE等等)的表观数据(主要是ChIP-seq and...

    生信技能树
  • GEPIA2详解(中国智造-肿瘤数据库)

    GEPIA2 是北京大学张泽民老师实验室开发的一个网站,能够对TCGA和GTEx项目共9736个肿瘤样本、8587个正常样本的RNA-seq表达数据进行分析。目...

    生信技能树
  • Laravel 框架集成 UEditor 编辑器的方法

    版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u011415782/article/de...

    泥豆芽儿 MT
  • Jerry Wang的CRM中间件培训 Middleware

    Jerry Wang
  • 带alpha透明通道视频—网页播放带alpha通道视频叠加合成方案

    带alpha通道的图片有GIF和PNG,但是GIF只有8位,失真严重,边缘锯齿非常明显。

    周陆军
  • 世界杯百亿盛宴暗潮涌动—到底是谁的足球狂欢?

    世界杯燃情进行时,防水墙为你解读狂欢背后的暗潮究竟为何物?

    腾讯防水墙
  • 当我们做区块链时,我们在做什么 | 洞见

    关于区块链是什么,网络上的解释多如牛毛。这里,我从通常需求的角度总结一下:在记录保存(身份存证)时,它是分布式账本(分布式数据库);在交易或支付(跨境支付)时,...

    ThoughtWorks
  • [PHP] 使用PHP迭代表示二叉树的查找

    先用一个数组表示一个二叉树搜索树,也就是一个排好序的二叉树,其中左子结点<根结点<右子结点

    陶士涵
  • 2018 计蒜之道 初赛 第一场A. 百度无人车

    用户2965768

扫码关注云+社区

领取腾讯云代金券