CN-Learn
更强的全外CNV分析软件
好的工具,让复杂遗传病易于被诊断
如果觉得内容对您有用,欢迎分享
如果有不同观点或建议,欢迎留言
各位做解读的小伙伴
请回忆一下
是否被CNV的分析结果虐过
各种可疑结果
不同软件之间结果不一致
等等等等
如果有以上烦恼
不妨尝试一下最新出炉
CNV分析工具
CN-Learn
1
CN-Learn好处都有啥
如何解决软件之间结果不一致
目前分析CNV的软件可谓五花八门
核心思路基本都是计算相对测序深度(depth method)
但对于数据的处理思想各异
如xHMM用PCA降噪 + HMM模型判断CNV
CODEX通过柏松回归分析
CoNIFER通过SVD降噪分析
所以每个软件都有自己的优劣之处
所以有人想利用多个软件同时做判断
实现强强联合的目的
在CN-Learn问世之前
其他软件常用的方法是Venn图法
看不同软件结果之间的一致性
认为越多的软件出现相同的结果
结果越可信
简单的说
就是谁人多听谁的
Venn图法的问题
Venn图法虽然简单粗暴
但有一些明显的缺陷:
所有软件可能犯同样的错误
叠加证据的效力很难评判
依旧没解决不同软件的内在偏差性
抹杀了每个软件独特优势(某些软件分析特定类型的CNV能力强于其他软件)
CN-Learn的解决途径
目前并没有很好判断不同软件优劣势的方法
毕竟理论模型和真实情况之间的差距
谁也很难说的清
反正都是说不清
CN-Learn祭出了机器学习大杀器:
随机森林
2
为什么说随机森林是机器学习的大杀器
因为他拯救了无数机器学习小白
咳咳
其实对于高维数据来说
随机森林是一个很好的分类工具
CN-Learn参考了多个软件的结果
以及片段的基因组属性
(如GC含量,比对能力等)
用微阵列结果作为金标准标记阳性结果
感受一下随机森林的魅力
关于随机森林的具体原理
此处不多做介绍
只需要知道:
随机森林是通过对高维数据做随机切割
生成多个CART做预测模型
最后以多数结果作为评判标准
balabala
那还是直接看疗效吧
CN-Learn目前使用的软件有
CANOES
CODEX
CLAMMS
XHMM
还可以支持自定义分析的软件
如目前最新的cnvkit等
CN-Learn用机器学习解决复杂相关性问题虽然方便,但也不是没有缺点
例如:
非常依赖训练数据的质量
降低了结果的可解释性
没有判断不同软件结果一致性有效方法
泛化能力较差
虽然有缺点
但从测试数据来看
CN-Learn是非常优于其他测试软件的
有感兴趣的小伙伴不妨去了解一下原文
或亲自测试一下吧
如果对文章内容有评价或不同看法,
欢迎到行业大咖顾大夫创建的论坛中讨论
NGS基因诊断率能力提高之路径
多维度、多学科、多角度,合共同之力解决问题。
领取专属 10元无门槛券
私享最新 技术干货