前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >《Similarity network fusion for aggregating data types on a genomic scale》

《Similarity network fusion for aggregating data types on a genomic scale》

作者头像
DC童生
发布2021-12-13 14:10:35
6360
发布2021-12-13 14:10:35
举报
文章被收录于专栏:机器学习原理机器学习原理
    • 链接:https://github.com/yik-cyber/SNFtool
    • 总结
      • 相似融合网络:聚合不同的基因数据类型
      • 论文以计算机视觉多视图方式为启发,设计了一种图融合网络用于解决基因数据不能综合处理的困难。
      • 本文考虑将患同一种癌症的病人组成一个群体,利用群体里面每个病人个体的不同基因数据分别构建不同的图,并设计了一个图融合方式,将不同的图融合成一个最终的图,最终的图包括了所有的基因信息数据,因此是一个综合的结果,利用该综合的结果进行聚类,可以将癌症分为不同的亚型,利用该综合结果进行回归任务,可以对病人的生存风险进行预测。论文的框架和模型的结构如下:
    • 问题陈述
      • 已经有一些方法可以综合使用所有种类的基因数据,但是存在各种问题:
        • 基于拼接的方式:存在低信噪比的问题;
        • 独立分析后拼接:数据独立,容易产生不同的输出结果,不能统一;
        • 基因预先选择:聚焦公共信息,缺失了互补信息;
        • 机器学习聚类:对于预先选择的基因数量特别敏感。
      • 本文提出SNF:Similarity network fusion:
        • 为每一类构建一个相似度网络;
        • 用非线性方法融合所有的相似度网络得到一个单一的输出网络。
      • SNF的优势:
        • 同时包含不同基因类型的公共信息和互补信息,提取的信息比较全面;
        • 可以综合处理多种基因数据,对噪声鲁棒,可用于样本少的情况;
        • 迭代融合的过程可以去除弱连接,增强强连接。
    • 方法
      • 下图以融合两种基因数据为例,原始的数据是一批患有同一种癌症的病人,分别提取每一个病人的DNA甲基化数据和mRNA基因数据。a图展示了每一个病人的两种基因数据,纵轴表示每个病人,横轴表示一条基因数据。b图展示了病人之间两两相似度计算后的相似度矩阵,c图是根据相似度矩阵画出的图,节点表示病人,连接的边表示了相似度的大小,即权值。c图中边只有一种颜色,此时边是纯净的,即每一条边都是由单一数据计算出来的。d图表示了图融合的 过程。通过融合迭代公式的不断迭代,两个图逐渐融合,互相学习得到各自的“长处”,最终达到收敛条件时,得到最终的融合图,即e,此时边不是纯净的,每条边都是由两种数据综合计算出来的。
      • 论文以一个细胞瘤数据集进行了分析,展示了SNF的具体过程,这里使用了三种基因数据,首先也是根据这三种基因数据分别进行构图,构图后对三个图进行融合。利用融合之后的图进行聚类和生存预测。使用谱聚类的方式将病人聚类成不同的癌症亚型,并将网络作为一个正则化项,加入到回归任务中,得到病人的生存风险预测。
      • 相似度计算公式
      • 图融合迭代公式
    • coding
      • 将数据分为两部分
      • 基于原始数据计算相似度矩阵
      • 将得到的相似度矩阵进行融合,得到融合后的矩阵
      • 对融合后的矩阵进行聚类分析,得到两个不同的簇。
      • 对相似度矩阵进行网络可视化
      • 对相似度矩阵进行二值化处理
      • 关于模型
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2021/12/6 下,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档