ChIP-seq实战分析

作者注

本次讲解选取的文章是为了探索PRC1,PCR2这样的蛋白复合物,不是转录因子或者组蛋白的CHIP-seq,请注意区别。

文章题目

RYBP and Cbx7 define specific biological functions of polycomb complexes in mouse embryonic stem cells

https://www.ncbi.nlm.nih.gov/pubmed/23273917

从文章里面找到数据存放地址如下:

数据下载

https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE42466

所以用脚本在ftp里面批量下载即可: ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP017/SRP017311

下载地址很容易获取

for ((i=204;i<=209;i++)) ;do wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP017/SRP017311/SRR620$i/SRR620$i.sra;donels *sra |while read id; do ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump –split-3 $id;done

数据处理与分析

因为我用fastqc看了看数据质量,代码如下:

ls *fastq |xargs ~/biosoft/fastqc/FastQC/fastqc -t 10

发现3端质量有点问题,我就用了-3 5 --local参数,用bowtie2软件把测序得到的fastq文件比对到mm10参考基因组上面

~/biosoft/bowtie/bowtie2-2.2.9/bowtie2 -p 6 -3 5 --local -x ~/reference/index/bowtie/mm10 -U SRR620204.fastq| samtools sort -O bam -o ring1B.bam~/biosoft/bowtie/bowtie2-2.2.9/bowtie2 -p 6 -3 5 --local -x ~/reference/index/bowtie/mm10 -U SRR620205.fastq| samtools sort -O bam -o cbx7.bam~/biosoft/bowtie/bowtie2-2.2.9/bowtie2 -p 6 -3 5 --local -x ~/reference/index/bowtie/mm10 -U SRR620206.fastq| samtools sort -O bam -o suz12.bam~/biosoft/bowtie/bowtie2-2.2.9/bowtie2 -p 6 -3 5 --local -x ~/reference/index/bowtie/mm10 -U SRR620207.fastq| samtools sort -O bam -o RYBP.bam~/biosoft/bowtie/bowtie2-2.2.9/bowtie2 -p 6 -3 5 --local -x ~/reference/index/bowtie/mm10 -U SRR620208.fastq| samtools sort -O bam -o IgGold.bam~/biosoft/bowtie/bowtie2-2.2.9/bowtie2 -p 6 -3 5 --local -x ~/reference/index/bowtie/mm10 -U SRR620209.fastq| samtools sort -O bam -o IgG.bam

比对后得到的bam文件如下:

nohup ~/.local/bin/macs2 callpeak -c ../IgGold.bam -t ../suz12.bam -m 10 30 -p 1e-5 -f BAM -g mm -n suz12 2>suz12.masc2.log &nohup ~/.local/bin/macs2 callpeak -c ../IgGold.bam -t ../ring1B.bam -m 10 30 -p 1e-5 -f BAM -g mm -n ring1B 2>ring1B.masc2.log &nohup ~/.local/bin/macs2 callpeak -c ../IgG.bam -t ../cbx7.bam -m 10 30 -p 1e-5 -f BAM -g mm -n cbx7 2>cbx7.masc2.log &nohup ~/.local/bin/macs2 callpeak -c ../IgG.bam -t ../RYBP.bam -m 10 30 -p 1e-5 -f BAM -g mm -n RYBP 2>RYBP.masc2.log &

找到的peaks文件如下:

大家可以看到RYBP这个CHIP-seq我几乎得不到peaks,哪怕是换了一个control,我用IGV看了看,这个RYBP的确很诡异,我怀疑是作者上传数据出错。

而且作者在GEO给的PEAKS个数如下

2754 GSE42466_Cbx7_peaks_10.txt 6982 GSE42466_Ring1b_peaks_10.txt 6872 GSE42466_RYBP_peaks_5.txt 8054 GSE42466_Suz12_peaks_10.txt

首先对这些bam文件批量转换成bw文件。然后批量画图

ls ../*bam |while read iddofile=$(basename $id )sample=${file%%.*}echo $samplebamCoverage -b $id -o $sample.bw ## 这里有个参数,-p 10 --normalizeUsingRPKMcomputeMatrix reference-point --referencePoint TSS -b 10000 -a 10000 -R ~/annotation/CHIPseq/mm10/ucsc.refseq.bed -S $sample.bw --skipZeros -o matrix1_${sample}_TSS.gz --outFileSortedRegions regions1_${sample}_genes.bedplotHeatmap -m matrix1_${sample}_TSS.gz -out ${sample}.pngdone

得到的BW文件如下,可以上传到UCSC等genome browser去可视化

然后整合所有的chipseq的bam文件,画基因的TSS附近的profile和heatmap图

computeMatrix reference-point -p 10 --referencePoint TSS -b 2000 -a 2000 -S ../*bw -R ~/annotation/CHIPseq/mm10/ucsc.refseq.bed --skipZeros -o tmp4.mat.gzplotHeatmap -m tmp4.mat.gz -out tmp4.merge.pngplotProfile --dpi 720 -m tmp4.mat.gz -out tmp4.profile.pdf --plotFileFormat pdf --perGroupplotHeatmap --dpi 720 -m tmp4.mat.gz -out tmp4.merge.pdf --plotFileFormat pdf

最后整合所有的chipseq的bam文件,画基因的genebody附近的profile和heatmap图

computeMatrix scale-regions -p 10 -S ../*bw -R ~/annotation/CHIPseq/mm10/ucsc.refseq.bed -b 3000 -a 3000 -m 5000 --skipZeros -o tmp5.mat.gzplotHeatmap -m tmp5.mat.gz -out tmp5.merge.pngplotProfile --dpi 720 -m tmp5.mat.gz -out tmp5.profile.pdf --plotFileFormat pdf --perGroupplotHeatmap --dpi 720 -m tmp5.mat.gz -out tmp5.merge.pdf --plotFileFormat pdf

下面是输出的图的例子,我只放了tss附近的。

上图可以看到RYBP的signal的中点在TSS处(但是macs软件认为它没有peaks),而其它IP的signal中心都在TSS下游一点点。

用Sequential ChIP (re-ChIP)实验的确可以看到RYBP和CBX7的peaks有重合

文章解读

这篇文章一直翻来覆去说CHIP-seq实验的peaks的交叉情况。

PRC1的组分异常复杂

包括 Cbx (Cbx2, Cbx4, Cbx6, Cbx7, or Cbx8); Ring1A or Ring1B; PHC (PHC1, PHC2, or PHC3); PCGF (PCGF1, PCGF2, PCGF3, PCGF4, PCGF5, or PCGF6); and RYBP or YAF2. 其中,a Ring1A/B E3 ligase subunit that monoubiquitinates histone H2A at lysine 119 (H2AK119ub)

但不是这些组分说都必须要有,而是它们的组合,形成了各种各样的PRC1,但是都统一叫做PRC1。

比如在mouse的ESCs里面,就有两种PRC1,它们的 Cbx7 or RYBP 不可能共存。我们可以把它们分别叫做, Cbx7-PRC1, RYBP-PRC1。Cbx7 的功能是把 Ring1B 招募到染色质上面,是必须的。它结合的基因多参与 early-lineage commitment of ESCs。RYBP 可以增强PRC1的酶活性,它结合的基因多参与,regulation of metabolism and cell-cycle progression。

RYBP 结合的基因要比 CBX7 结合的基因表达量高。 因为CBX7结合的同时,会招募PRC2这个抑制marker。而PRC2 deposits the histone H3 lysine 27 trimethyl repressive mark (H3K27me3) through the Ezh1/2 histone methyltransferase enzymes.

如何描述它们这些peaks的交叉情况呢?

We observed an overlap of RYBP peaks (3,918 in total) with 14%, 42%, and 37% of Cbx7, Ring1B, and Suz12 peaks, respectively. Moreover, although more than 90% of Cbx7 peaks contained Ring1B and Suz12, 20% were also bound by RYBP

尽管RYBP and Cbx7 在大部分情况下都是互相排斥的,但是也在少部分基因组区域存在共定位的现象。

Ring1B / Suz12的peaks情况可以被 Cbx7 和 RYBP 的peaks情况说明:

  • RYBP and Cbx7 都有的地方,有着高Ring1B/Suz12
  • Cbx7 but not RYBP的地方,Ring1B/Suz12会稍微低一点
  • RYBP but not Cbx7的地方,Ring1B/Suz12会更低一点
  • RYBP and Cbx7 都没有的地方,Ring1B/Suz12就最少!

RYBP的peaks的中点在TSS处,而其它peaks都在TSS下游一点点。用Sequential ChIP (re-ChIP)实验的确可以看到RYBP和CBX7的peaks有重合。而且RYBP还有一些peaks是其它PRC1所没有的,说明它可以独立于PRC1发挥作用。

H2AK119ub 与 Ring1B/Suz12正相关,但是与RYBP只有25.7%交叉,与CBX7有着72%交叉。因此, PRC1 target genes分成3类:

  • a first set with Cbx7/Ring1B/H2AK119ub
  • a second that contains RYBP and lower levels of Ring1B/H2AK119ub
  • a third set cobound by RYBP/Cbx7/Ring1B and that also contains H2AK119ub.

这些所有的gene list都可以做GO/KEGG分析,进而思考生物学意义。

  • genes co-occupied by Ring1B/Cbx7/RYBP and H2AK119ub are involved in system development.
  • genes containing RYBP/Ring1B/H2AK119ub, but not Cbx7, have a strong association with the M phase of the meiotic cycle and cellular metabolism
  • genes with Cbx7/Ring1B/H2AK119ub are involved in developmental processes and mesoderm specification,
  • those containing RYBP/Cbx7/Ring1B/H2AK119ub predominantly represent the ectodermal fate and, to a lesser extent, mesoderm and endoderm fates

超过700的基因有 RYBP/Cbx7/Ring1B的peaks,所以作者敲除Cbx7 看看 RYBP的peaks是否会变化,但是没有做CHIP-seq,只是做了ChIP-qPCR。

最后,文章的以下结论很重要:

Overall, our ChIP-seq analysis allowed us to identify five types of genes according to the occupancy of PRC1 and PRC2: those with

  • Ring1B/Cbx7/RYBP and Suz12 (725 genes);
  • Ring1B/Cbx7/Suz12, but not RYBP (1,527 genes);
  • Ring1B/RYBP/Suz12, but not Cbx7 (861 genes);
  • only Ring1B and Suz12 (1,694 genes);
  • RYBP but no Polycomb proteins (1,674)

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-06-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏https://www.cnblogs.com/L

【Keras篇】---利用keras改写VGG16经典模型在手写数字识别体中的应用

VGG16是由16层神经网络构成的经典模型,包括多层卷积,多层全连接层,一般我们改写的时候卷积层基本不动,全连接层从后面几层依次向前改写,因为先改参数较小的。

742
来自专栏智能算法

Python相关机器学习‘武器库’

开始学习Python,之后渐渐成为我学习工作中的第一辅助脚本语言,虽然开发语言是Java,但平时的很多文本数据处理任务都交给了Python。这些年来,接触和使...

4046
来自专栏人工智能LeadAI

keras学习笔记-黑白照片自动着色的神经网络-Beta版

Alpha版本不能很好地给未经训练的图像着色。接下来,我们将在Beta版本中做到这一点——将上面的将神经网络泛化。 以下是使用Beta版本对测试图像着色的结果。...

3306
来自专栏人工智能头条

手把手教你实战汉字书法识别

2914
来自专栏生信技能树

lncRNA数据分析传送门

step1: 计算资源的准备 如果有差不多配置的服务器,就可以从SRA/FASTQ格式数据开始走全套流程。不懂配置,请看前面转录组和表观组的传送门。 如果只有个...

3819
来自专栏新智元

【深度学习自动上色,数月工作几秒完成】开源神经网络图片上色技术解析

【新智元导读】本文是作者对Reddit社区用户Amir Avni深度学习上色机器人的实现,看完本文后,你也能打造媲美大师级着色效果的自动上色神经网络应用。此外,...

3287
来自专栏钱塘大数据

【钱塘号专栏】大神级程序员才知道的40个小技巧

1、重构是程序员的主力技能。 2、工作日志能提升脑容量。 3、先用profiler调查,才有脸谈优化。 4、注释贵精不贵多。杜绝大姨妈般的“例注”。漫山遍野的碎...

2897
来自专栏生信技能树

第5篇:对ATAC-Seq/ChIP-seq的质量评估(二)——ChIPQC

第4篇:对ATAC-Seq/ChIP-seq的质量评估(一)——phantompeakqualtools

453
来自专栏wOw的Android小站

[闲谈] 有经验的程序员用Google用得多么?

关于程序员有没有必要记一些API什么的讨论有很多,我个人觉得能Google到的就没必要刻意去记,可以简单的做个笔记,需要用的时候查一下就好了。真正有必要记的东西...

372
来自专栏企鹅号快讯

推荐 38个miRNA数据库

-1.psRNATarget http://plantgrn.noble.org/psRNATarget/ 一个在线的植物小RNA的靶基因预测工具,发表在核酸研...

2117

扫描关注云+社区