专栏首页生物信息学、python、R、linuxUMAP的初步了解及与t-SNE的比较

UMAP的初步了解及与t-SNE的比较

降维是机器学习中的可视化和理解高维数据的强大工具。t-SNE是最广泛使用的可视化技术之一,但其性能在大型数据集中会受到影响。

UMAP是McInnes等人的一项新技术。与t-SNE相比,它具有许多优势,最显著的是提高了速度并更好地保存了数据的全局结构。例如,UMAP可以在3min之内处理完784维,70000点的MNIST数据集,但是t-SNE则需要45min。此外,UMAP倾向于更好地保留数据的全局结构,这可以归因于UMAP强大的理论基础。

1. 简单比较UMAP与t-SNE

下图是UMAP和t-SNE对一套784维Fashion MNIST高维数据集降维到3维的效果的比较。高清3D图参见:https://pair-code.github.io/understanding-umap/

虽然这两种算法都表现出强大的局部聚类并将相似的类别分组在一起,但UMAP害将这些相似类别的分组彼此分开。另外,UMAP降维用了4分钟,而多核t-SNE用了27分钟。

2. UMAP参数

UMAP中两个最常用的参数:n_neighborsmin_dist,它们可有效地用于控制最终结果中局部结构和全局结构之间的平衡。

最重要的参数是n_neighbors ,近似最近邻居数。它有效地控制了UMAP局部结构与全局结构的平衡,数据较小时,UMAP会更加关注局部结构,数据较大时,UMAP会趋向于代表大图结构,丢掉一些细节。

第二个参数是min_dist,点之间的最小距离。此参数控制UMAP聚集在一起的紧密程度,数据较小时,会更紧密。较大的值会更松散,而将重点放在保留广泛的拓扑结构上。

上图可以通过https://pair-code.github.io/understanding-umap/自己调整一下参数看一下。

3. 进一步比较UMAP与t-SNE

t-SNE和UMAP大部分的表现非常相似,但以下示例明显例外:宽而稀疏的cluster中有密集的cluster(如下图所示)。UMAP无法分离两个嵌套的群集,尤其是在维数较高时。

UMAP在初始图形构造中局部距离的使用可以解释该算法无法处理情况的原因。由于高维点之间的距离趋于非常相似(维数的诅咒),所以可能会因此将其混合在一起。

参考:https://pair-code.github.io/understanding-umap/

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • kallisto比对参考转录组

    kallisto是2016年发表在Nature Biotechnology上的一个比对工具,可以将bulk或者single-cell RNA-Seq数据的序列直...

    生信编程日常
  • monocle 2拟时序分析

    monocle做拟时序分析首先要构建CDS需要3个矩阵:expr.matrix、pd、fd,其次将Seurat中的对象转换为monocle识别的对象。然后选择想...

    生信编程日常
  • shell程序计时

    有时候写了一个pipeline,我们想知道具体会跑多长时间,这就需要实现计时功能,可以用date或者time实现。

    生信编程日常
  • 面试官说:你真的不是不优秀只是不合适

        静儿四年前面试一家公司,当时没有意识到自己的工作年限已经很长了。面试官的工作年限似乎比我短。他问了我很多java的三方类库的用法。我当时那段时间主要在...

    静儿
  • HBase + SpringBoot分布式文件存储实战(一)-简介

    JavaEdge
  • 谷歌增强了人工智能的逻辑推理能力

    被称为神经网络的人工智能系统可以识别图像、翻译语言,甚至掌握古老的围棋游戏。但它们处理复杂的数据或变量之间关系的能力依然很有限,这使得它们还无法胜任需要逻辑推理...

    人工智能快报
  • 【连载-1】数据中心网络虚拟化技术 概要

    随着云计算和大数据等新兴应用的快速发展,“数据中心即计算机”(data center as a computer)的技术发展趋势逐渐明朗。数据中心作为一台计算机...

    SDNLAB
  • 会议 | DTCC第九届中国数据库技术大会

    2018年5月10-12日,第九届中国数据库技术大会将如约而至。本届大会以“数领先机•智赢未来”为主题,设定2大主会场及22个技术专场,邀请来自国内外互联网、金...

    杨振涛
  • 数据中心网络虚拟化技术 概要

    随着云计算和大数据等新兴应用的快速发展,“数据中心即计算机”(data center as a computer)的技术发展趋势逐渐明朗。数据中心作为一台计算机...

    SDNLAB
  • 技术分析!要我怎么说!

    或者设想下,病人在诊所拍了张心电图,医师用手比划并标出黄金分割比;在复核病人脉搏血压数据时,指出“三角形态”。这种情况病人肯定不敢再请这位医师看病。

    量化投资与机器学习微信公众号

扫码关注云+社区

领取腾讯云代金券