前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >GeneToCN:一种直接从NGS数据中估计基因拷贝数的alignment-free方法

GeneToCN:一种直接从NGS数据中估计基因拷贝数的alignment-free方法

作者头像
尐尐呅
发布2023-12-04 12:28:33
1900
发布2023-12-04 12:28:33
举报

基因组表现出具有片段拷贝数变异的大区域,其中许多包括整个基因并且是多等位基因。2023年10月,Scientific Reports》发表了一种新的alignment-free计算方法GeneToCN,该方法计算FASTQ文件中基因特异性k-mer的频率,并使用这些信息推断基因的拷贝数。

GeneToCN是什么?

GeneToCN是一种新的alignment-free方法,用于对拷贝变异基因进行目标拷贝数估计。开发团队特别注意在基因区域中选择稳健可靠的k-mers。GeneToCN可以在不需要队列数据的情况下估计单个样本的拷贝数。

GeneToCN方法概述

GeneToCN需要创建一个定制数据库,该数据库由精心挑选的k-mers组成:a) 来自基因区域的 k-mers;b) 来自同一基因侧翼区域的k-mers。为每个基因选择有代表性的k-mers是GeneToCN的关键步骤。在估算每个研究个体的拷贝数时,首先是直接从该个体的原始测序读数中计算所选基因特异性k-mer的频率。每个基因的拷贝数是用基因区域k-mers频率中位数除以侧翼区域k-mers频率中位数,再乘以 2(人类基因组倍性)计算得出的。得出的拷贝数是十进制的,但如果希望/需要用整数拷贝数来解释,可以四舍五入到最接近的整数。

GeneToCN的性能测试

开发团队证明了GeneToCN在淀粉酶基因家族和FCGR3基因上的准确性,以及在其他三个基因区域(NPY4R、SMN和LPA-Kringle IV 2型结构域)上的通用性。

使用来自39个个体ddPCR的实验数据验证了淀粉酶基因(AMY1、AMY2A、AMY2B)的拷贝数预测,并观察到强相关性(R = 0.99)。

GeneToCN和ddPCR的拷贝数估计值之间的相关性

对FCGR3基因的进一步验证表明,与其他两种方法相比,GeneToCN的一致性更高,但准确性降低。同时,开发团队还在三个不同的基因组区域(SMN, NPY4R和LPA Kringle IV-2结构域)上测试了该方法。

使用 GeneToCN估算500人(EstBB)的拷贝数分布

通过比较同一样本中来自Illumina、PacBio和Oxford Nanopore数据的拷贝数预测结果,研究了在不同技术生成的测序数据上使用GeneToCN的可能性。尽管k-mer频率的变异性不同,但所有三种测序技术在使用GeneToCN时都给出了相似的预测结果。

根据Illumina、Oxford Nanopore和PacBio技术生成的测序数据,对AMY1、AMY2A和AMY2B区域中的k-mers频率进行归一化

未来,开发团队计划编译并发布所有拷贝可变或包含感兴趣的较小拷贝可变区的基因的k-mer数据库,为用户提供一个易于访问的工具箱,用于alignment-free拷贝数预测。

GeneToCN基因分析的源代码可和k-mer数据库可从如下链接获取:

👉 https://github.com/bioinfo-ut/GeneToCN

k-mer计数软件GenomeTester4的二进制文件和源代码可从如下链接获取:

👉 https://github.com/bioinfo-ut/GenomeTester4/

// 参考文献

Pajuste, FD., Remm, M. GeneToCN: an alignment-free method for gene copy number estimation directly from next-generation sequencing reads. Sci Rep 13, 17765 (2023). https://doi.org/10.1038/s41598-023-44636-z

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-11-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 国家基因库大数据平台 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档