在我看来,the和其他降维算法主要是为了获得数据集的印象而将维数降为二维。如果做得好,它们看起来不错(例如,像这样),但我想知道这是否比在网格上按类显示随机图像/分组更好。
我想从以下几个方面得到答复:
*:您可能也可以为其他降维算法回答这个问题,但the似乎是最流行的算法。
请注意:我确实看到了压缩/更容易优化/更快推理的降维的优点。然而,降到二维似乎只是为了可视化。因此,我的问题是,在这些嵌入中是否能看到比数据集的视觉效果更好的图像?
发布于 2017-03-29 13:53:15
这里有很多问题,我会依次回答每个问题。
如果你的目标是提供数据的视觉概览,那么一个分层的样本显然不会那么做--每个样本仍然生活在高维空间中,因此不容易可视化,如果你对数据之间的关系感兴趣,那么逐项查看样本并不一定有助于建立这些关系的合理的心理模型。因此,采用that (或类似方法)的抽样和可视化都在解决类似的潜在问题:“我的数据是什么样子的”;它们在这方面提供了非常不同的观点,但强调了不同的方面,我想说它们完全是互补的。为什么不两者兼得呢!
这就更难了,因为我不能告诉你其他的明确的研究,但是that通常在提供对用户有意义的视觉表示方面做得更好。值得注意的是,their是由Geoff Hinton共同创建的,我相信他对神经网络及其潜在的用途和好处非常了解。如果杰夫认为then值得使用,那么人们可以合理地认为它比其他NN方法有一些优点。现在,考虑到这一点,人们可能可以将quote解释为具有两个神经元瓶颈的NN;我还没有试着详细说明这一点,所以不要引用我的话。最后,NNs并不一定是所有问题的答案;task是专门为低维嵌入而设计的流形学习算法,而具有适当瓶颈的自动编码器可能会给出类似的结果,但肯定不一定适合于这个任务。
保证什么?提供数据的可视化表示?是的,它会做到的。保证高维和低维表示的推断分布的Kullback-Liebler散度被最小化?就优化的质量而言,是的。保证当地结构得到保护?对数据集进行适当的困惑选择,是的。保证低维表示是数据的全局结构的完全忠实的表示?不,没有保证。这取决于你要找的是什么。
实际上原则上,由于then专注于维护局部结构并为此牺牲全局结构,如果您的分类严重依赖于局部结构,那么then可以比其他寻求保持全局结构的降维技术表现得更好,因此局部结构表示更差。在无监督(密度)聚类的情况下,局部结构比全局结构更重要,因此潜在的true可以提供帮助。然而,对二维的压缩可能是相当极端的。
如果你感兴趣的是视觉化(就像then一样),那么不幸的是,比较不可避免地是相当主观的。这很像集群的情况。当然,有许多不同的聚类质量度量,但通常可以归结为“集群意味着什么?”,对于每一个度量,都有一个对该度量进行优化的聚类算法。同样,也有衡量嵌入成功程度的方法,但最终取决于成功嵌入的含义(保持大规模关系至关重要吗?)保护本地结构更重要吗?)对于任何给定的度量,都有一个优化该度量的算法。对于主观评价,标准方法似乎是嵌入标签数据,然后查看标签着色的结果--不,这永远不会清楚地显示出优越性,但它可以暗示似乎起作用的东西。在实践中,this似乎在这方面做得不错(因此它很受欢迎)。有比瓶颈式自动编码器更好的吗?我不知道为什么有人认为瓶颈自动编码器在默认情况下是更好的选择,但在我的经验中,当我尝试了几种数据选项时,我发现the可以提供更好的数据集直觉。当然,轶事不是数据,所以一定要自己尝试这些选择。
我希望这涵盖了大部分内容,尽管也许这些并不完全是你想要的答案。
https://datascience.stackexchange.com/questions/17953
复制相似问题