前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >NIPT/CNVseq/WES 数据如何更精确地区分性别

NIPT/CNVseq/WES 数据如何更精确地区分性别

作者头像
用户7625144
发布2020-08-10 15:59:49
3.1K0
发布2020-08-10 15:59:49
举报
文章被收录于专栏:生信开发者生信开发者

CNVseq一般针对的是流产物或者全血白细胞,是比较纯的组织样本,一般用比到Y染色体上的总reads数占总常染色体 reads数的比例,人为设置一个cutoff就能很轻易的区分性别。WES一般也针对的是全血白细胞,也可通过此方法来准确分性别。但NIPT数据一般测序量(5-8M single end reads)比CNVseq还少,在胚胎DNA含量较低的时候区分性别方面,如果再采用固定cutoff的方法,可能会因为没有屏蔽X和Y的同源区域或者非唯一比对区域,经常会出现性别分的不准的问题。

虽然国家明确禁止做胎儿性别鉴定,但我们要准确分析性染色体的非整倍性和性染色体CNV或嵌合情况的时候,还是要基于相同性别来做分析的,只有当异常的时候,我们才会对医生做提示。

现在NIPT的常规流程很多企业不仅仅只是分析染色体非整倍性了,而且也会去分析下CNV,有的企业甚至推出了NIPTplus(也有的叫NIPTpro)。这类产品是比普通NIPT实验建库方案进一步优化,测序量提升好几倍,能检测所有染色体的非整倍性,和一些常见发病率较高的胎儿可能携带的CNV。

其实NIPTplus分析CNV,主要思路还是和CNVseq差不太多,也是用的滑动窗口对reads计数,通过考察case与control样本在每个窗口的比值变化来分析拷贝数的变化,但对数据分析和实验建库的稳定性要求更高,这样我们才能尽可能减小假阳性。2015年博奥与广东省妇幼合作的 通过实验方法富集胎儿DNA,人为提高胎儿DNA比例的方法,也能有效减少假阳性。但我个人观点宁可通过增加测序量或在生信层面通过分析cffDNA片段来in silicon enrich 胎儿DNA的方法也行更可取。

回归正题,通过CNV分析,我们也对所有样本的Y染色体的每个滑动窗口做了reads计数。通过屏蔽掉X和Y同源的region、repeat region、non-unique region,然后对Y染色体的每个滑动窗口的read count用所有常染色体的reads数做均一化,接下来做好GC校正,我们就得到了一批次(FLow Cell)样本的 所有Y的每个滑动窗口的Normalized Read Count(NRC)。我用这个数据来做聚类,理论上就可自动精确区分好性别的。

但我用gplots的heatmap.2中默认的 hclust聚类方法,并没有很好地区分好性别。我仔细研读了下hclust中的几个methods,并找到了如下链接对这些methods做了精确描述。

https://uc-r.github.io/hc_clustering

我发现女性胎儿的Y染色体NRC总和占常染色体的NRC总和的比例一般都非常低,彼此之间的 variance也不大,而男性胎儿的这个比例可能因为胎儿DNA含量不同的关系,彼此之间variance比较大,但所有男性胎儿的这个比例都远比女性胎儿大。用最后一种hclust method,即ward.D方法也许最合适。

于是我写了R代码,并生成了聚类图,测试了一些数据,基本都能100%自动准确区分好性别了,以下是聚类图:

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-05-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信开发者 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档