专栏首页生信修炼手册Juicer:Hi-C数据处理分析的利器

Juicer:Hi-C数据处理分析的利器

通过Hi-C数据可以分析TAD,chromatin loops等染色质空间结构的基本单元,加强我们对染色质三维结构的认知。面对海量的Hi-C数据,如何高效完成数据分析成为了一个挑战。

目前针对Hi-C数据的分析也有很多的软件可以用,而juicer无疑是使用的最广泛的软件之一。该软件的源代码托管在github上,网址如下

https://github.com/aidenlab/juicer

对应的文章发表在cell杂志上,链接如下

https://www.cell.com/action/showPdf?pii=S2405-4712%2816%2930219-8

如下图所示,和其名字一样,juicer就像是一款榨汁机,输入Hi-C产生的原始fastq数据,经过层层加工,直到产生有效的数据分析结果。在整个数据分析过程中,使用者不需要高深的编程技巧,只需要一些基本的操作规范,人人都可以使用该软件来分析Hi-C数据。

juicer作为一款强大的分析软件,有以下几个特点

  1. 可以分析处理TB级别的海量数据,可以有效利用FPGA, GPU,集群等硬件资源来加速处理速度
  2. 提供了数据预处理,交互图谱创建和可视化,TAD和染色质环结构预测等一些列完整的pipeline
  3. 简单易用,不需要复杂的背景知识

该软件按照功能拆分成了三个大的分析步骤,依次运行即可得到最终的分析结果

  1. 数据预处理,将原始的fastq序列比对参考基因组,识别其中的valid pairs, 并生成一个后缀为hic的文件
  2. 读取hic文件,创建可视化的交互图谱,也称之为contact map, 并进行归一化
  3. 采用算法预测TAD和染色质环等结构

完整功能示意如下

juicer采用ArrowHead算法对原始的交互矩阵进行转化,并预测TAD拓扑关联结构域,采用HiCUUPS算法识别染色质环chromatin loops。和其他Hi-C数据处理软件相比,juicer的功能更为齐全

juicer独创了一种名为hic的文件格式,用来存储Hi-C数据的相关信息,这种格式是一种高度压缩的二进制文件格式,在以下链接可以查看这种格式的详细信息

https://github.com/theaidenlab/juicebox/blob/master/HiC_format_v8.docx

在后续的文章中,会详细介绍该软件的用法。

本文分享自微信公众号 - 生信修炼手册(gh_0146e37a8a70),作者:lzyg

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-05-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 3D Genome Browser:Hi-C数据可视化工具

    对于chip_seq的数据,我们可以通过UCSC, igvtools等基因组浏览器来展示和查看相应的数据,而对于三维基因组学的结果信息,这些二维基因组浏览器就不...

    生信修炼手册
  • Broad GDAC:TCGA数据分析中心

    Broad GDAC对TCGA的结果进行了整理和深入分析,相关的原始数据和分析结果可以通过网页的方式进行查看和下载,网址如下

    生信修炼手册
  • circRNADb:综合性的人类环状RNA数据库

    circRNA是一类新发现的ncRNA, 和线性的pre-mRNA相比,缺少了5’端帽子和3’端polyA等结构,其头尾相连形成一个闭合的环状结构,更加的稳定。

    生信修炼手册
  • Juicer 中文文档

    我们可以配置一些参数选项,包括 cache、 strip、 errorhandling、 detection;其默认值都是 tru...

    貟王軍
  • 【前沿】用AlphaGo Zero方法实现增强学习下棋

    【导读】Google DeepMind AlphaGo团队在Nature上发表两篇论文《Mastering the game of Go without Hum...

    WZEARW
  • html写法对gzip压缩率的影响

    前几天在群里看到小杜分享一篇文章,《html写法对gzip压缩率的影响》,为此我也对这点分析了一下。 不知道大家有没有看过这文章,作者是来自微博懒懒交流会,其内...

    IMWeb前端团队
  • html写法对gzip压缩率的影响

    前几天在群里看到小杜分享一篇文章,《html写法对gzip压缩率的影响》,为此我也对这点分析了一下。 不知道大家有没有看过这文章,作者是来自微博懒懒交流会,其内...

    IMWeb前端团队
  • shell 脚本常用调试方法

    曾经我刚开始学习 shell 脚本时,除了知道用 echo 输出一些信息外,并不知道其他方法,仅仅依赖 echo 来查找错误,比较难调试且过程繁琐、效率低下。本...

    叨叨软件测试
  • 北大 AI 公开课第3讲:蚂蚁金服漆远 人工智能驱动的金融生活服务(27 PPT)

    【新智元导读】以人工智能驱动金融生活服务为切入点,北大“人工智能前沿”系列课程第三讲为观众描述了AI在特定领域的实现和应用。蚂蚁金服VP、首席科学家、普渡大学终...

    新智元
  • MongoDB 复合索引

    如下图所示,在集合的userid以及score列上创建一个复合索引,其中userid为升序,score为降序

    Leshami

扫码关注云+社区

领取腾讯云代金券