首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Sentieon | 应用教程: TNscope 使用机器学习模型进行有匹配正常样本的体细胞变异发现

使用TNscope中机器学习模型

TNscope中机器学习模型的目标

TNscope允许您使用机器学习模型进行变异过滤,以提高结果的准确性。机器学习模型的方法描述在https://www.biorxiv.org/content/early/2018/01/19/250647中,并在TNscope中使用一系列灵敏设置来检测更多的候选变异,然后通过基于模型的变异过滤。

Sentieon为您提供基于GIAB多个样本真集训练的机器学习模型https://github.com/genome-in-a-bottle 。

在TNscope中使用机器学习模型

需要运行三个单独的命令来进行高灵敏设置调用变异,应用机器学习模型,并使用BCFtools设置模型阈值。输入的BAM文件应该进行过比对、去重复和BQSR处理。

以下是命令所需的输入参数:

NUMBER_THREADS:计算中将使用的线程数。建议不要超过系统中可用的计算核心数。

REFERENCE:参考基因组FASTA文件。请确保参考基因组文件与比对阶段使用的文件相同。

TUMOR_DEDUPED_BAM:经过去重处理的肿瘤样本的BAM文件。

TUMOR_RECAL_DATA.TABLE:肿瘤样本的BQSR结果文件。

NORMAL_DEDUPED_BAM:经过去重处理的正常样本的BAM文件。

NORMAL_RECAL_DATA.TABLE:正常样本的BQSR结果文件。

TUMOR:BAM文件中肿瘤样本的SM标签名称。

NORMAL:BAM文件中正常样本的SM标签名称。

TMP_VARIANT_VCF:TNscope变异调用输出的临时文件位置和文件名。

VARIANT_VCF:变异调用输出的位置和文件名。将创建相应的索引文件。软件将输出一个压缩的gz文件。

FILTER_VARIANT_VCF:设置最终阈值后的变异调用输出文件名。由于使用了-O z选项,输出文件将是一个bgzip压缩的vcf.gz文件。

ML_MODEL:机器学习模型文件。

$ML_THRESHOLD:根据模型确定变异为真的概率的阈值。建议使用0.81。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OUGQnX_7BAZh3d97CWEZxmmA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券