CN-Learn 更强的全外CNV分析软件

CN-Learn

更强的全外CNV分析软件

好的工具,让复杂遗传病易于被诊断

如果觉得内容对您有用,欢迎分享

如果有不同观点或建议,欢迎留言

各位做解读的小伙伴

请回忆一下

是否被CNV的分析结果虐过

各种可疑结果

不同软件之间结果不一致

等等等等

如果有以上烦恼

不妨尝试一下最新出炉

CNV分析工具

CN-Learn

1

CN-Learn好处都有啥

如何解决软件之间结果不一致

目前分析CNV的软件可谓五花八门

核心思路基本都是计算相对测序深度(depth method)

但对于数据的处理思想各异

如xHMM用PCA降噪 + HMM模型判断CNV

CODEX通过柏松回归分析

CoNIFER通过SVD降噪分析

所以每个软件都有自己的优劣之处

所以有人想利用多个软件同时做判断

实现强强联合的目的

在CN-Learn问世之前

其他软件常用的方法是Venn图法

看不同软件结果之间的一致性

认为越多的软件出现相同的结果

结果越可信

简单的说

就是谁人多听谁的

Venn图法的问题

Venn图法虽然简单粗暴

但有一些明显的缺陷:

所有软件可能犯同样的错误

叠加证据的效力很难评判

依旧没解决不同软件的内在偏差性

抹杀了每个软件独特优势(某些软件分析特定类型的CNV能力强于其他软件)

CN-Learn的解决途径

目前并没有很好判断不同软件优劣势的方法

毕竟理论模型和真实情况之间的差距

谁也很难说的清

反正都是说不清

CN-Learn祭出了机器学习大杀器:

随机森林

2

为什么说随机森林是机器学习的大杀器

因为他拯救了无数机器学习小白

咳咳

其实对于高维数据来说

随机森林是一个很好的分类工具

CN-Learn参考了多个软件的结果

以及片段的基因组属性

(如GC含量,比对能力等)

用微阵列结果作为金标准标记阳性结果

感受一下随机森林的魅力

关于随机森林的具体原理

此处不多做介绍

只需要知道:

随机森林是通过对高维数据做随机切割

生成多个CART做预测模型

最后以多数结果作为评判标准

balabala

那还是直接看疗效吧

CN-Learn目前使用的软件有

CANOES

CODEX

CLAMMS

XHMM

还可以支持自定义分析的软件

如目前最新的cnvkit等

CN-Learn用机器学习解决复杂相关性问题虽然方便,但也不是没有缺点

例如:

非常依赖训练数据的质量

降低了结果的可解释性

没有判断不同软件结果一致性有效方法

泛化能力较差

虽然有缺点

但从测试数据来看

CN-Learn是非常优于其他测试软件的

有感兴趣的小伙伴不妨去了解一下原文

或亲自测试一下吧

如果对文章内容有评价或不同看法,

欢迎到行业大咖顾大夫创建的论坛中讨论

NGS基因诊断率能力提高之路径

多维度、多学科、多角度,合共同之力解决问题。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181109G0QO8900?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券