前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >解密Hi-C数据分析中的分辨率

解密Hi-C数据分析中的分辨率

作者头像
生信修炼手册
发布2019-12-19 15:57:10
2.2K0
发布2019-12-19 15:57:10
举报
文章被收录于专栏:生信修炼手册生信修炼手册

欢迎关注”生信修炼手册”!

Hi-C基于传统的染色质构象捕获技术,在DNA连接时引入生物素标记分子,标记交联的染色质,然后富集带有生物素标记的junction reads, 再结合高通量测序和下游的生物信息学分析,可以在全基因组范围内研究染色质的空间互作关系。

在Hi-C文库中,我们得到的是互作染色质形成的junciton reads, 通过将这些reads 比对到参考基因组之后,可以分析染色质之间的互作。以下图为例

图中蓝色和红色对应的染色质区域有互作,黑色和黄色对应的染色质区域有互作,在对应的Hi-C文库中,我们可以得到如下所示的junction reads

将这些reads正确比对到参考基因组上之后,就可以确定对应的染色质区域之间存在互作,而对应的junction reads的数目越多,则代表两个区域交互作用发生的频率越高。

对于所有区域的互作信息,通常会用一个交互矩阵interaction matirx来表示,该矩阵是一个方阵,每一行或者列都代表一个染色质区域,方格的颜色代表代表两个区域交互作用的强弱,示意如下

在构建矩阵的过程中,我们首先需要确定每一行代表的染色质区域的范围,互作的片段是通过酶切来得到的, 理论上存在10的11方种唯一的酶切片段。如果想要精确分析所有酶切片段之间的交互,首先需要足够的测序深度,涵盖所有类型的酶切片段,这就要求非常庞大的测序数据量,其次对于如此庞大的交互矩阵,数数据分析阶段对于计算资源的消耗也是一个天文数字。

为了有效利用Hi-C文库中的信息,科学家提出了binning的概念,将基因组划分为等长的窗口,这样的窗口称之为bin, 利用窗口内reads的分布来研究不同窗口之间的互作关系。这样的处理相比最原始,最直接的染色质互作数据,其分辨率确实是有一定程度的丢失,但是基于全基因组范围,仍然能够挖掘出很多有效信息。

bin窗口的长度称之为分辨率。如果分辨率为1Mb, 以人类基因组为例,在交互矩阵中会有3000左右的行。bin窗口的长度越小,则基因组区域的划分越细致,对于染色质三维构象的研究的就越精细。

不同分辨率对于测序量的要求不同,适用的场景也不同。基于不同分辨率的Hi-C数据,陆续发现了A/B compartments, TAD拓扑结构域,染色质环等空间结构。

·end·

—如果喜欢,快分享给你的朋友们吧—

扫描关注微信号,更多精彩内容等着你!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-05-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信修炼手册 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档