了解NGS临床数据仓库VSWarehouse—出完报告是否分析人员的工作就能翻篇了

当回到岗位上,你会发现还需要考虑这些问题:

做完一系列的操作,课程一般就结束了。大部分人的关注的点往往是当前单批次的分析数据和分析结果。那么当这些数据和结果积累到了一定的量,能不能为以后所用?

一旦数据库注释更新,哪些报告中的变异分类需要改变

我们这个文章讲的不是怎么分析当前的数据,而是以后迟早要做的事:

数据积累得多了,报告积累的多了,又该怎么利用?

Golden Helix的技术总监GabeRudy最近在自己的博客上发表了一篇文章,题目叫做“VSWarehouse Updates with the Power of VarSeq 1.4.7”,如果光看题目,是在讲软件升级以后,某模块得到了怎样的更新。

如果你读到倒数第三段:“When designing complex data systems, it is considered best practice to have a single“source of truth” from which secondary systems may operate on, creating theirown views or derived analytics. The same concept applies to the dataaccumulated during the analysis of a clinical genomic test.”

体会一下这位软件工程师的设计理念:我们自己所掌握的数据和信息要有形成数据库的意识,这样的数据库里的信息是我们自己的数据和分析结果,可以被用于一批数据的单次分析,但是仅仅满足于分析完成单批次的数据还远远不够,在临床基因组学分析过程中,还可以进一步的积累数据到这个数据库中,随着我们数据的增多从而扩大我们对数据的理解,从而慢慢的形成我们的“真相源”。而这样的策略就是为了应对复杂的数据系统而设计。

通过时间的积累和数据、报告、评估的积累,有必要建立或者优化自己机构或者组织的NGS检测数据库检索平台,获得每个变异/CNV在我们自己所收集测序分析的人群库中的突变信息,以及在各个类型(比如健康、肿瘤、遗传病等),甚至在更细一级的队列分布信息。哪怕我的变异/CNV只有一个病例,只要我想找到它,都可以检索出来;一旦数据库的注释改变,数据仓库就需要给予提醒。每个人的对变异/CNV的评估经验是参差不齐的,通过数据仓库把别人对变异/CNV的评估分享给组织的其他人看到也是很有必要的。

在以前,我们面对的数据量很少,病例样本也比较小,数据结果和报告的信息的管理往往只要通过买大的存储,做好文档记录就可以。

但是当数据,报告,病人数量产生了量级的变化,还是这个做法思路,那就不是合格的分析工程师:因为这些数据信息,虽然躺在电脑里面,但是我们不去主动想以后怎么办,数据库更新我们也不知道哪些以往病人或者报告需要被更新,或者主动做这些事情只能靠(盈余的)时间、自觉和悟性,那么这样我们的能力成长就跟不上数据的量级变化。

有没有别人的经验或者思路,值得我们借鉴?今天我们就以VSWarehouse为例,看看它们是怎么做到数据报告的管理的。它是本地化的管理系统,通过内网IP进行数据管理。

VSWarehouse对数据的管理,分为三个方向:分别是项目,报告和评估目录。

VSWarehouse保存了从变异/CNV数据到分析以及解读的过程。有利于对数据解读的整个证据链的信息追溯。

此外,可以在界面看到它包含了版本的信息,比如样本或者注释做了更新,那么以前的版本和更新的版本,都可以在这个数据仓库中被找到。

如果某个病人过了很久,需要把当年的检测报告和评价抽取出来,把以前的和当前的数据库进行核对和重新评估,那么普通的管理工具是非常容易实现的。但是如果这样的老病例非常非常多,时间也间隔得比较长而且也不统一,需要批量的自动化核对,实现起来就比较困难。

VSWarehouse的优势在这个时候就会显示出来,得以免由于信息的更新,丢失了以前的结果而产生的争议。

在Projects中17K samples代表了我某个项目执行的时候,使用了17K的样本数量,得到了1155个高质量的用于后续处理的变异。这个变异数这么少,估计是采用了某种定制的panel. 这个项目有1个版本,也就是做好了以后这个项目没有改动。其他项目有多个版本,说明信息改动过。

到了Reports中,在VSWarehouse中提交了以下这些报告。拿第一个报告来说,GH Cancer Panel这个报告有6个样本,Primary Findings有10个变异,Incidental Findings有14个。评估目录(Assessment Catalogs)中的ClinicalSignificance则收录了16个被标记的变异被临床分析人员做了有害性的分类。评估的Version的信息,也可以查到。

VSWarehouse项目(Projects)是根据实验室样本的不同的组别或者队列,把每个序列变异/CNV进行统计和注释,以构建组织内部的变异/CNV知识库。比如说不同的样本同一个变异/CNV,因为样本分类(比如不同的疾病,亚群等)分到了不同的Project,那么它们的突变信息也会从各自的Project中加以统计。所以可以利用VSWarehouse的思路,来制作我们中国人群自己的ExAC和gnomAD。

数据积累到一定程度,构建自己的数据库(比如下图打勾的两个私有库),用到下一次的分析中。

可以作为注释筛选过滤的条件,像其他的数据库一样,加载到自己的常规分析流程中。

对于VSWarehouse的报告(Reports)来说,报告存储了临床解释过程的最终结果,每个样本的背景数据,临床结果以及用户选择的variant和CNV将被包含在完全可定制的报告中。

可以具体点击每个变异/CNV,查看变异/CNV的背景信息和分析结果。

还可以调用某个原始分析报告。

目录(Catalogs)提供了一个灵活的知识库来捕获variant和CNV的解释,以及标记有用的variant和CNV的列表,例如误报,被确认的benign variants等。

此外,VSWarehouse评估目录可以使用VSWarehouse提供的标准过滤和搜索功能进行查看和操作。

比如可以在VSWarehouse中任意的搜索某个感兴趣的变异/CNV,该感兴趣的变异/CNV无论是自己发现的,还是别人提醒的,只要输入VSWarehouse,如果保留了记录,就可以得到它的以往的项目,在哪些样本里面曾经出现过,别人都是怎么评价它的:

比如,某实验室收到了其它合作实验室的信息,提醒某个变异需要重新审视:

就可以把这个变异输入到VSWarehouse检索条中:

这个变异/CNV的所有有关项目都会被抓取出来,比如该变异就在Cardio Panel Warehouse, Research Exomes中找到了:

同一个变异/CNV,在哪些样本中存在, reads的QC情况,以及其他背景信息都可以调出来,也就是说,哪怕我的变异/CNV只有一个病例,只要我想找到它,都可以检索出来。

可以个性化的检索某个基因(DES)满足AF阈值的变异/CNV有哪些:

人们还知道经过时间的变化,数据库的更新,哪些信息解释需要修改。比如以Clinvar举例,当这个数据库发生了更新,Warehouse就会提醒用户,什么疾病,在哪些项目中,哪些变异/CNV位点发生了注释的改变。其他的数据库也是同样的道理。

某个variant/CNV,是不是以前在哪些样本里面也碰到过,如果有,还可以进一步可视化进行展示:

借助软件内部内嵌的可视化系统,当调查感兴趣的变体的基因组背景时是特别有用的。除了可以看感兴趣的某个变异/CNV所在位点的信息,还可以看到它周围不可忽略的变异/CNV信息。

比如上图,这个Project中的一个de novo候选变异(Variants-YRI_Exoe_Filtered3),也出现在warehouse中(100Exomes-102 samples),你会发现在这个位点还会有不同的alternate allele(C/A,C/T),和距离此变异周围的其他变异(前面的C/T和后面的G/C)。

得到了一些经验,可以在组织内部把信息进行分享和更新,使得组织的其他成员也获得你的知识。

个人对VSWarehouse的进一步建议:

做一个数据库,目的不光是为了当下的检索,它也有隐藏的一个需求,就是怎么发现我以前没有发现的规律。

我们想知道公共数据库中什么变异涉及到什么表型是相对容易的,从某个特定已经被标记好的项目中调出什么变异涉及到什么表型也是相对容易的。

但是在自己的数据库中,想从自己的所有项目中了解,到底是哪些项目有可能带有该表型相关的变异,而且以前并没有发现,是更需要被重视的而且很容易漏掉的。因为数据,样本,数据库,变异的解释是不断更新的。

在以前,由于数据积累的少,或者是由于临床医生专注于某疾病领域,对其他领域的表型有可能漏掉。虽然说临床信息的采集是非常重要的,但是采集的信息也是根据当时的信息采集的,也许在以后看来,会有一定的局限性。

我个人很希望可以通过检索,知道感兴趣的phonotype(s)或者疾病输入进去,有所有的项目中去搜索,哪些项目中的哪些样本的变异,涉及到了感兴趣的phonotype(s)或者疾病,这些变异或者CNV以前有没有被别人发现过,有没有被自己的组织发现和报道过,它们在自己的队列中的频率,致病性,测序深度,覆盖度等信息的搜索,是很有必要的。

我们如果只是在报告中声明,实验检测有哪些局限性是不够的。既然有局限性,就要想办法去在以后的工作中,来不断的完善整个分析流程和系统。那么通过这么一个数据管理仓库,也许会对查漏,或者对数据的重新审视,有独到的好处。

软件总设计师背景简介:

Gabe Rudy,GHI的产品与工程副总裁,自2002年以来,Gabe在生物信息学和遗传分析的动态和快速变化的领域蓬勃发展。Gabe在计算机科学家和统计学家的领导下建立强大的产品和提供世界一流的支持,致力于帮助Golden Helix的客户加快研究。当不读书或博客时,Gabe享受户外蒙大拿的生活方式。但最重要的是,Gabe很喜欢和他的儿子,女儿和妻子一起度过时光。参照Gabe在Twitter @gabeinformatics。

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20171210G0MCZX00?refer=cp_1026

相关快讯

扫码关注云+社区