前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >评估肿瘤纯度的方法(二):基于单核苷酸变异 TPES

评估肿瘤纯度的方法(二):基于单核苷酸变异 TPES

作者头像
作图丫
发布2022-03-29 08:44:48
1.3K0
发布2022-03-29 08:44:48
举报
文章被收录于专栏:作图丫

导语

GUIDE ╲

对肿瘤样本进行基因组和分子分析时,首先需要定量肿瘤和混合的正常细胞的比例[肿瘤纯度(TP)或肿瘤细胞性],用以评估体细胞损伤检测边界并进行适当的比较分析。接下来我们会介绍一些评估样本纯度的方法。之前我们有介绍基于甲基化评估肿瘤纯度的R包InfiniumPurify

背景介绍

基于体细胞拷贝数变异(SCNAs)来评估肿瘤纯度的方法有ABSOLUTE (Carter et al.,2012)、ASCAT (Van Looet al.,2010)、Sequenza (Favero et al.,2015)和CLONET (Prandi et al.,2014);基于转录组数据评估TP的方法有ESTIMATE (Yoshihara et al., 2013);基于甲基化数据评估TP的方法有LUMP (Aran et al., 2015)和PAMES(Benelli et al., 2018);基于突变评估TP的方法有 PurityEst (Su et al., 2012)。TCGA支持使用基于SCNAs的工具来评估TP,而对于甲状腺癌(THCA)和肾脏肾透明细胞癌(KIRC),其基因组是‘quiet’(可识别的SCNAs是非异常的),所以这种基于SCNAs的TP评估方法是不适用的。

估计肿瘤纯度的方法TPES,是根据体细胞单核苷酸变异(SNVs)的可变等位基因片段(VAFs)在拷贝数中性的肿瘤片段中的分布来估计DNA纯度。

TPES方法

纯的肿瘤样本的变异等位基因分数(VAF)分布应该是0.5,(例如观察肿瘤细胞,如果所有的细胞都含有相同的异质突变,那么肿瘤细胞纯度为100%,变异等位基因分数是50%,即每个染色体的一半)。一些技术手段和癌型特异因素会影响VAF值,并且例如,如果SNV在拷贝数为3的区域出现,其VAF是只会在1/3,2/3或1左右波动。

认为二倍体片段内的克隆单等位SNV适合于TP评估,命名为p-SNV。通过使用保守的方法选择合适的p-SNV,用来评估TP,确定用来评估纯度值所需的最小SNV数量。为了最大程度减少每个样本的假阳性p-SNV数量,TPES使用两个主要的过滤步骤。

TPES的第一个过滤步骤:

(i)通过对每个基因组片段的log2R值(肿瘤与正常细胞覆盖率进行log2转化),进行保守筛选,如[-0.1,0.1],来识别拷贝数中性片段中SNVs。

(ii)通过染色体倍性(TPES输入参数为连续值)来调整log2R分布,解释非整倍性基因组。

(iii)通过保留那些分别在定义的阈值之上和之下的替代碱基和AF的读取次数(默认设置为5和0.55),来选择假定杂合SNVs。

TPES的第二个过滤步骤:

为了避免性别分层,将X和Y染色体从分析中排除。首先指定一组杂合的拷贝数中性SNVs,即cnn-SNVs,cnn-SNVs是SNVs的子集。在第二个过滤步骤中,TPES从设置的cnn-SNV中删除假定的亚克隆突变。通过使用一定范围的带宽值的核密度评估(KDE)使观测cnn-SNVs的VAF分布平滑化。

该方法用于TCGA数据集,获得不同肿瘤类型的p-SNVs。为了系统地评估能够可靠地估计TP的最小数量的p-SNVs,将TPES与基于SCNA的评估方法进行了比较。图A显示,> 9个p-SNVs与CLONET估计值具有很大的相关性;ABSOLUTE和ASCAT观察到了类似的趋势。

通过对TCGA的30个癌型的7809个样本用TPES和其余7种方法进行评估,用斯皮尔曼相关评估结果,CLONET 与 TPES有高的一致性(图A,B)。

R包应用

01

TPES_purity计算样本纯度

例:TCGA_A8_A0A7

(1)使用数据:

TCGA_A8_A0A7_seg:

TCGA_A8_A0A7样本的SEG文件,为数据框。

TCGA_A8_A0A7_maf:

TCGA_A8_A0A7样本的体细胞SNVs计数数据,为数据框,包含SNV的染色体,SNV的位置,参考和替代碱基count,以及样品ID。

TCGA_A8_A0A7_ploidy:

TCGA_A8_A0A7样本的染色体倍性数据,数据框。

(2)计算纯度:

代码语言:javascript
复制
TPES_purity(ID= "TCGA-A8-A0A7", SEGfile = TCGA_A8_A0A7_seg,
            SNVsReadCountsFile =TCGA_A8_A0A7_maf, ploidy = TCGA_A8_A0A7_ploidy,
            RMB = 0.47, maxAF= 0.55, minCov = 10, minAltReads = 5, minSNVs = 10)

参数解释:

#RMB:

参考匹配偏差(Reference Mapping Bias)值。参考基因组在任何给定的位点上只包含一个等位基因,因此携带非参考等位基因的读序列在比对时不太可能被匹配到;导致了从0.5的偏移,它可以用1−medAF评估,其中medAF是样本的种系杂合SNPs等位分数(AF)的中位数。默认值为0.47。

#maxAF:

对SNVs等位基因分数(AF)分布的滤波。这个对于确保只保留杂合SNVs是必要的。无性系和亚无性系SNVs,其AF大于maxAF,将会被去除。

#minCov:

保留SNV的最小覆盖范围

#minAltReads:

保留的SNV的替代碱基的最小覆盖范围

#minSNVs:

评估纯度所需的最小SNV数量

(3)输出结果:

TPES_purity:

sample:样本ID

purity:TPES评估的样本纯度

purity.min:TPES评估样本的最小纯度

purity.max:TPES评估样本的最大纯度

n.segs:TPES使用的中性片段的拷贝数

n.SNVs:TPES使用的SNVs数

RMB:用来评估纯度的参考匹配偏差值

BandWidth:TPES选择的密度函数的平滑带宽值

log:报告运行是否成功,否则提供调试信息

02

TPES_report计算纯度、生成图形报告

TPES_report函数生成关于TPES_purity使用的假定克隆SNVs的等位基因分数值和TPES_purity计算的密度函数的图形报告。

例:TCGA_A8_A0A7

代码语言:javascript
复制
TPES_report(ID= "TCGA-A8-A0A7", SEGfile = TCGA_A8_A0A7_seg,
            SNVsReadCountsFile =TCGA_A8_A0A7_maf, ploidy = TCGA_A8_A0A7_ploidy,
            RMB = 0.47, maxAF = 0.55, minCov =10, minAltReads = 5, minSNVs = 10)

输出图形:

柱状图表示了推测的克隆和亚克隆SNVs在拷贝数中性片段和TPES检测到的峰值的等位分数分布。密度图表示密度函数如何根据不同的带宽值变化;只考虑导致最多两个峰值的带宽值。

小编总结

TPES方法是通过计算体细胞单核苷酸变异(SNVs)的可变等位基因片段(VAFs)的分布来评估DNA的纯度,它的优势是计算拷贝数为中性的肿瘤纯度,比如SCNAs非异常的甲状腺癌(THCA)和肾脏肾透明细胞癌(KIRC)。同时TPES方法与其他评估肿瘤纯度的方法有很高的一致性。

引用:

Locallo A, Prandi D, Fedrizzi T, Demichelis F. TPES: tumor purity estimation from SNVs. Bioinformatics. 2019;35(21):4433–4435. doi:10.1093/bioinformatics/btz406

END

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-04-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作图丫 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档