首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Sentieon | 应用教程: 使用DNAscope对HiFi长读长数据进行胚系变异检测分析

介绍

本文描述了使用Sentieon DNAscope进行PacBio HiFi数据胚系突变检测。PacBio HiFi技术产⽣质量值超过Q20的高质量长读段,平均长度在10-25kb之间。准确的长读段可以对短读段和高噪音长读段方法无法检测的基因组重复区域进行精准的变异检测。

Sentieon DNAscope能利用PacBio HiFi数据高质量、长读长的优势,使用经过校准的机器学习模型进行快速、精准的变异检测。针对HiFi数据的DNAscope流程输入比对后的HiFi数据,并输出VCF格式变异检测结果。

本流程的使用需要使用202010.03或更新版本的Sentieon软件和可从Sentieon获取的相关脚本。本流程需要Python版本>2.7或>3.3,bcftools版本为1.10及以上。Python,bcftools,bedtools需要在用户环境变量中。

输⼊数据要求

比对后数据

本流程的输入使用pbmm2或minimap2比对后的PacBio HiFi数据。使⽤pbmm2比对推荐使用-c 0 -y 70 --preset HIFI参数。这些设置关闭了pbmm2传统的比对⼀致性过滤,转而使用间隔压缩序列过滤并使用PacBio推荐的HiFi数据比对设置。使用minimap2比对推荐使用-x map-hifi参数。该设置为minimap2针对HiFi数据的推荐设置。

参考基因组

DNAscope将根据高质量参考基因组对样本进行变异检测。除了参考基因组外,由samtools生成的基因组索引文件(.fai)也是必须的。我们建议使用没有补丁序列的参考基因组。

PacBio HiFi数据Sentieon DNAscope流程

流程概览

本流程会进行两轮变异调用,然后将两轮结果合并到⼀起生成最终的结果。具体步骤如下:

本流程在第⼀轮调用中会检测样本中的变异位点;

利⽤第⼀轮检出的SNV和长读长信息进行定相;

第⼆轮调用:

- 在定相区,从每个单倍型中分别进行变异调用;

- 在非定相区,使用更准确的⼆倍体模型进行变异调用;

将第⼀轮和第⼆轮的变异位点合并生成最终结果;

通过提供的MHC bed⽂件,对MHC区域进行特殊处理,进⼀步提高变异检测准确性;本流程所需的DNAscope机器学习模型可从https://github.com/Sentieon/sentieon-models获取。

运行流程

通过⼀个包含多个单⼀Sentieon命令的脚本即可运行HiFi数据DNAscope流程。⼀行命令即可完成变异检测并运用机器学习模型。HiFi数据比对文件可以是用pbmm2比对和建立索引后的bam或cram⽂件。

dnascope_HiFi.sh [-h] -r REFERENCE -i HIFI_BAM -m MODEL [-d dbSNP] [-B MHC_INTERVAL] [-b

INTERVAL] [-t NUMBER_THREADS] [-h] [--] VARIANT_VCF

HiFi数据Sentieon DNAscope流程必选参数如下:

-r REFERENCE:参考基因组fasta文件路径。请确保使用的参考基因组⽂件与比对阶段使用的⼀致。

-i HIFI_BAM:比对后的BAM文件路径。

-m MODEL:DNAscope HiFi模型⽂件。

HiFi数据Sentieon DNAscope流程可选参数如下:

-d dbSNP:dbSNP数据库VCF文件路径。仅需⼀个文件。该文件将用于变异检测结果中位点refSNP ID的注释。

-B MHC_INTERVAL:MHC区间文件,BED格式。该文件将用于MHC区域变异检测的特殊处理。

-b INTERVAL:区间文件,BED格式。该文件将限制变异检测在该区间。

-t NUMBER_THREADS:并行线程数。该参数可选,默认使用计算机所有线程。

-h:打印帮助信息。

HiFi数据Sentieon DNAscope流程位置参数如下:

VARIANT_VCF:变异检测输出文件名。本流程会输出bgzip压缩的VCF文件及其索引文件。

流程输出⽂件

本流程会输出⼀个以VCF4.2格式标准的bgzip压缩文件(.vcf.gz)及其索引文件(.vcf.gz.tbi)。

其他注意事项

目前,该流程仅推荐应用于⼆倍体样本。对于包含⼆倍体和单倍体的样本,应使⽤-b INTERVAL参数将变异检测限定到⼆倍体染⾊体。

往期精选

1.Sentieon介绍

2.Sentieon安装时 jemalloc error 解决办法

3.Sentieon | 每周文献-Population Sequencing-第一期

4.Sentieon | 每周文献-Genetic Disease-第二期

5.Sentieon | 每周文献-Tumor Sequencing-第三期

6.Sentieon | 每周文献-Agrigenomics-第四期

7.Sentieon | 每周文献-Epidemiology-第五期

8.使用Sentieon加速甲基化WGBS数据分析

9.Hap-eval:Sentieon开源的多测序平台SV精度评估工具

10.Sentieon DNAscope:适配多测序平台数据的快速精准分析流程

(长按二维码·申请试用Sentieon)

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O4-NVAuxdqz88Xd32_Ru_DYQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券