前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >高欣/王建新课题组NAR两连发-重复序列检测算法和数据库

高欣/王建新课题组NAR两连发-重复序列检测算法和数据库

作者头像
DrugAI
发布2021-12-10 14:35:34
6640
发布2021-12-10 14:35:34
举报
文章被收录于专栏:DrugAIDrugAI

1.重复序列识别框架LongRepMarker

重复序列在动物、植物、细菌等基因组中普遍存在。例如,人类基因组中重复序列的占比约为50%左右。大量研究表明,基因组中的重复序列在生物体的进化、遗传、变异、基因表达、转录调控、染色体重组和生理代谢等过程中都起着不可或缺的作用,并与癌症(肺癌、胰腺癌、卵巢癌)、自闭症、精神分裂症、高血压等复杂疾病的发生有着已知的密切的关联。重复序列的全面检测和精准注释是研究其在生物体生命活动中发挥的作用和探索其与复杂疾病之间的关联的重要基础。然而,由于测序技术的限制(二代测序片段精度高,但是尺寸有限;三代测序片段长,但是精度低)和检测模式设计存在缺陷,现有的检测方法在检测规模和精度方面都无法达到令人满意的程度,这严重制约了下游分析和应用的开展。

为了突破测序技术的限制,克服现有检测方法在检测模式上的不足,中南大学王建新课题组和沙特阿卜杜拉国王科技大学(KAUST)高欣课题组在充分分析重复序列的比对特性及其对序列组装过程的影响的基础上,基于多比对unique k-mers和全局性组装策略提出了一种全新的重复序列识别框架LongRepMarker(图1)

图1. LongRepMarker的工作流图

该框架首先将长测序片段(Barcode-linked reads和SMS long reads)引入到NGS短片段的组装流程之中来化解Assembly graph中因重复序列而引起的歧义路径,并以全局性组装的模式来充分还原序列之中蕴含的重复序列。其次,该框架中首次提出了多比对unique k-mers这一种全新的数据类型,其通过寻找多比对unique k-mers及其在Assembly上的覆盖区域,可以稳定、精准地识别出这些蕴含在测序数据之中的重复序列,并极大地降低资源消耗。

评估实验表明,与现有的检测方法 (例如:RepeatScout, RepeatModeler2, RepeatMasker等)相比, LongRepMarker在检测规模和检测精度上都具有明显优势。例如,该框架在人类基因组上的检测结果覆盖标准重复序列库RepBase的比例为82.45%,而RepeatScout 和RepeatModeler2的相应结果分别为73.70% 和 63.33%。综合来看,LongRepMarker不仅可以高效、全面、准确地定位基因组中重复序列,而且可以识别发生在重复序列内部的结构变异。此外,其设计的5种检测模式,可以轻松应对多种测序条件下的重复序列识别。

相关研究成果已发表在生物信息学领域国际权威期刊Nucleic Acids Research上。该成果的审稿人将该框架评价为:“该工具将成为全基因组重复序列注释和分析领域的里程碑,相信它会被研究界广泛应用到基因组注释之中(This tool will be a milestone in genome-wide repeat annotation and analysis, and I believe that it will be widely used by the research community in genome annotation)”。

2.msRepDB数据库

元素完整性好且精准高、覆盖物种广泛的重复序列数据库,是开展基因组重复序列研究的重要基础。然而,现在广泛使用的重复序列数据库(如:Dfam和RepBase)受检测工具性能和可用数据规模的影响,无论在元素的精度,还是在覆盖物种的范围方面都无法达到令人满意的程度,这严重制约了该领域研究的开展,研发全新的多物种重复序列数据库迫在眉睫。高欣课题组和王建新课题组进一步基于LongRepMarker 检测框架构建了全新的多物种重复序列数据库msRepDB(图2)

图2. msRepDB数据库的功能模块展示

该数据库目前收集了超过84,000个物种,是目前为止最为完备的重复序列数据库(Dfam是msRepDB出现之前最为完整的重复序列数据库,其最新版收集的物种数目只有60,000左右)。综合测评表明,msRepDB相对于现有的Dfam和RepBase 数据库在收集物种数目和单一物种重复序列的精确度、完整性方面都有显著优势。相关研究成果也已发表在Nucleic Acids Research的数据库特刊上。

中南大学计算机学院院长王建新教授和沙特阿卜杜拉国王科技大学(KAUST)计算生物学中心副主任、智慧医疗中心副主任高欣教授为上述两项成果的共同通讯作者。KAUST的博士后廖兴宇博士为上述两项成果的第一作者,中南大学计算机学院李敏教授、加拿大萨斯喀彻温大学吴方向教授为上述两项研究提供了宝贵的建议。上述两项研究得到了国家自然科学基金委、科技部重点研发计划、百图生科、沙特阿卜杜拉国王科技大学(KAUST)、KAUST计算生物学中心、KAUST结构和功能生物信息学研究组、及湖南省自然科学基金委的资助。

参考资料

  1. Xingyu Liao, Min Li, Kang Hu, Fang-Xiang Wu, Xin Gao, and Jianxin Wang. (2021). “A sensitive repeat identification framework based on short and long reads”. Nucleic Acids Research. 49(17):e100. DOI: 10.1093/nar/gkab563.
  2. Xingyu Liao, Kang Hu, Adil Salhi, You Zou, Jianxin Wang, and Xin Gao. (2021). “msRepDB: a comprehensive repetitive sequence database of over 80,000 species”. Nucleic Acids Research, gkab1089. DOI: 10.1093/nar/gkab1089.
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-12-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档