首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Sentieon | 应用教程: 关于读段组的建议

介绍

本文档描述了使用Sentieon Genomics软件时,推荐使用RGID字段以最小化潜在问题的用法。

本文档能帮助您确定设置所使用的bam文件中RG标签的不同字段的最佳实践方法。

RG字段及其用法的详细描述

RG字段的详细描述

SAM格式规范http://samtools.github.io/hts-specs/SAMv1.pdf 将读段组定义为将读段组合在一起的标识符。BAM文件中的读段组字段可以包含以下标签:

: 标识符。读段组的唯一标识符。您需要确保RGID在BAM文件内是唯一的,并且在同一个命令的流水线中使用的多个BAM文件内也是唯一的。此字段是必需的。

: 中心名称。进行测序的测序中心的名称。通常情况下,此标签不被使用。

: 描述。对读段组的自由格式描述。通常情况下,此标签不被使用。

: 日期。运行生成的日期,遵循ISO8601日期或日期/时间格式。通常情况下,此标签不被使用。

: 流程顺序。与每个读段的每个流程所使用的核苷酸对应的数组。通常情况下,此标签不被使用。

: 关键序列。与每个读段的关键序列对应的核苷酸基序的数组。通常情况下,此标签不被使用。

: 文库。用于测序读段的文库。

: 程序。用于处理读段组的程序。通常情况下,相关信息会包含在BAM文件的PG字段中,而不是在每个读段组内单独设置。

: 预测的中值插入大小。通常情况下,此标签不被使用。

: 平台。用于测序读段的技术。如果您计划运行BQSR,则需要此标签,因为它用于确定要应用的正确错误模型。

: 平台模型。提供关于所使用平台/技术的更多细节的自由格式文本。通常情况下,此标签不被使用。

: 平台单元。执行测序的测序仪使用的唯一标识符。如果您打算运行BQSR,则建议使用此标签,因为BQSR将对属于相同PU的所有读段进行建模;如果PU缺失,则BQSR将对具有相同RGID的读段进行建模。

: 样本名称。读段所属样本的名称。此字段是必需的。

RG字段标签和Sentieon

以下是RG字段标签在Sentieon工具中使用的一般原则:

使用多个输入的bam文件时,需要使每个bam文件的ID标签唯一;两个不同的bam输入文件中不能有相同ID的RG。

工具使用SM标签来识别属于同一样本的读段,并相应地处理它们。

去重(Deduplication)使用LB标签来确定可能包含重复的组,重复的reads应属于同一文库。

BQSR模型需要PL标签来确定要应用的错误模型。如果没有PL标签,将不会执行BQSR。

如果存在PU标签,则BQSR建模将基于PU标签识别的读段组进行;如果不存在PU标签,则BQSR建模将基于ID标签识别的读段组进行。

RG字段标签的填写

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O2IXVMWzp4XjCF7Gotq6Kq5w0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券