首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Sentieon | 应用教程:利用共识功能去除PCR重复

介绍

本文介绍了如何使用Sentieon Genomics工具去除PCR重复序列。该步骤使用两个单独的命令来收集读段信息并执行去重操作。LocusCollector工具的选项--consensus用于控制是否输出PCR重复序列的共识结果。如果适用唯一分子标识符(UMI)标签,请使用LocusCollector的选项--umi_tag来启用基于分子条码的去重。

非共识的去重

通过非共识的去重方法,从一组重复读段中,选择一个代表性的读段作为主要读取。

非共识的去重(无UMI)

该工作流程与Picard MarkDuplicates的默认输出结果相匹配。

sentieon driver -t NUMBER_THREADS -i SORTED_BAM \ --algo LocusCollector --fun score_info SCORE.gzsentieon driver -t NUMBER_THREADS -i SORTED_BAM \ --algo Dedup [--rmdup] --score_info SCORE.gz \--metrics DEDUP_METRIC_TXT DEDUPED_BAM

有一种特殊的3次流程去重,可以标记主要读段和非主要读段。然而,这种流程仅适用于非共识的去重(无UMI)。

基于分子条码的非共识去重(带有UMI)

该工作流程利用UMI信息以及读段和读段对的5'位置来确定PCR重复序列。在LocusCollector中使用选项--umi_tag来指定UMI标签。

sentieon driver -t NUMBER_THREADS -i SORTED_BAM \ --algo LocusCollector --umi_tag XR --fun score_info SCORE.gzsentieon driver -t NUMBER_THREADS -i SORTED_BAM \ --algo Dedup [--rmdup] --score_info SCORE.gz \--metrics DEDUP_METRIC_TXT DEDUPED_BAM

基于共识的去重

通过基于共识的去重,可以从一组重复的读段中生成单个共识读段。该过程可以纠正PCR和测序引入的错误。它还可以估计每个位置的碱基质量分数,以反映共识读段中碱基错误的概率。在基于共识的去重之后,不应执行额外的碱基质量调整步骤。

在LocusCollector中设置选项--consensus以启用基于共识的去重功能。此外,Dedup需要提供参考基因组的FASTA文件。

不带有UMI的基于共识的去重

在没有UMI的情况下,此工作流程仅使用比对坐标来对测序读段进行聚类。

sentieon driver -t NUMBER_THREADS -i SORTED_BAM \ --algo LocusCollector --consensus --fun score_info SCORE.gzsentieon driver -t NUMBER_THREADS -r REFERENCE -i SORTED_BAM \ --algo Dedup [--rmdup] --score_info SCORE.gz \--metrics DEDUP_METRIC_TXT DEDUPED_BAM

基于UMI的共识去重

基于UMI的共识去重工作流程使用比对坐标和UMI(分子条码)来对测序读段进行聚类。

sentieon driver -t NUMBER_THREADS -i SORTED_BAM \ --algo LocusCollector --consensus --umi_tag XR --fun score_info SCORE.gzsentieon driver -t NUMBER_THREADS -r REFERENCE -i SORTED_BAM \ --algo Dedup [--rmdup] --score_info SCORE.gz \--metrics DEDUP_METRIC_TXT DEDUPED_BAM

(1)UMI条码错误纠正

UMI条码会根据与其他条码之间的编辑距离进行自动的错误纠正。若要禁用此功能,请在LocusCollector中使用选项--umi_ecc_dist 0。

(2)RNA序列数据

当使用STAR对RNA序列数据进行比对时,在LocusCollector中设置选项--rna。

sentieon driver -t NUMBER_THREADS -i SORTED_BAM \ --algo LocusCollector --rna [--consensus] [--umi_tag XR] --fun score_info SCORE.gzsentieon driver -t NUMBER_THREADS -r REFERENCE -i SORTED_BAM \--algo Dedup [--rmdup] --score_info SCORE.gz DEDUPED_BAM

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OqiuRBoOfeRbTui61q5SFSrw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券