简读分享 | 张鑫 编辑 | 龙文韬
论文题目
Multi-view spectral clustering with latent representation learning for applications on multi-omics cancer subtyping
论文摘要
在多组学数据的驱动下,一些多视图聚类算法已经成功应用于癌症亚型预测,旨在识别同一癌症中具有生物特征差异的亚型,从而改善患者的临床预后,设计个性化的治疗方案。由于omics数据中患者的数量远远小于基因的数量,基于相似性学习的多视角谱系聚类得到了广泛发展。然而,这些算法仍然存在一些问题,如过度依赖预设相似性矩阵的质量来获得聚类结果,无法合理处理高维omics数据中的噪声和冗余信息,忽视omics数据间的互补信息等。文章提出了多视角谱系聚类与潜在表征学习(MSCLRL)方法来缓解上述问题。首先,MSCLRL为每个omics数据生成相应的低维潜表征,可以有效保留每个omics的独特信息,提高相似度矩阵的鲁棒性和准确性。其次,通过MSCLRL为获得的潜表征分配适当的权重,并进行全局相似性学习,以生成一个综合相似性矩阵,综合相似性矩阵被用来反馈和更新每个全息影像的低维表征。最后,最终的综合相似性矩阵被用于聚类。在10个基准多组学数据集和2个独立的癌症案例研究中,实验证实,所提出的方法获得了具有统计学和生物学意义的癌症亚型。
论文链接
https://academic.oup.com/bib/advance-article/doi/10.1093/bib/bbac500/6850565