前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >文献解读|使用hi-C数据辅助埃及伊蚊基因组的组装

文献解读|使用hi-C数据辅助埃及伊蚊基因组的组装

作者头像
生信修炼手册
发布2019-12-19 19:53:50
5210
发布2019-12-19 19:53:50
举报
文章被收录于专栏:生信修炼手册生信修炼手册

早在2013年的时候, 就已经有科学家提出了利用Hi-C数据来辅助基因组组装的思路,可以将scaffold进一步提升到染色体级别的长度,并提供了配套的分析软件LACHESIS。该软件默认输入的基因组组装结果完全正确,后续的操作都是建立在这个前提下。然而实际情况中,受到组装算法的限制,基因组草图中会存在拼接错误的情况。

在2017年的时候,又有科学家提出了利用hi-c辅助基因组组装的新思路,并利用该思路进行了埃及伊蚊的基因组组装,对应的文章发表在science上,链接如下

https://science.sciencemag.org/content/356/6333/92/tab-pdf

在该文章提供的分析思路中, 首先会根据hi-c数据的结果,对输入的基因组组装结果中的拼接错误进行校正,然后在进行后续分析,整个pipeline如下图所示

可以分成以下4个大的步骤

  1. preliminary filtration
  2. misjoin correction
  3. ordering and orientation
  4. overlap merging

第一步首先对基因组组装的结果进行预处理,去除长度太短的scafflod。长度过短的scaffold在hi-c图谱中对应的交互信息会非常的少,没有足够的交互信息无法有效的进行后续分析;第二步利用hi-c数据校正scaffold中存在的拼接错误,对于检测到存在拼接错误的scaffold, 将其切割为存在拼接错误的inconsistent部分和未检测到拼接错误的consistent部分,inconsistent部分不会进行后续分析。

第三步确定归属同一条染色体的scaffold,并进行排序和调整方向;第四步检测同一条染色体上的scaffold间是否存在overlap, 对于存在overlap的scaffold, 进行merge。

应用该算法结合hi-c数据对埃及伊蚊的基因组结果重新组装后,效果如下所示

可以看到,由最初的草图组装到了最终的染色体级别。该算法对任意的基因组组装都是适用的,值得一提的是该文章指出,通过hi-c数据辅助基因组组装得到的最终结果中,还是会存在部分的错误结果,这个是不可避免的。

文章中对应的软件链接如下

https://github.com/theaidenlab/3d-dna

后续会详细介绍其用法。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-06-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信修炼手册 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档