我是这个网站的新手,也是聚类分析的新手,所以如果我违反了约定,我很抱歉。
我一直在使用Cluster3.0来执行具有欧几里德距离和平均链接的层次聚类分析。Cluster3.0输出一个.gtr文件,其中包含一个连接基因的节点及其相似度得分。我注意到,.gtr文件中的第一行总是将一个基因与另一个基因链接在一起,后面跟着相似度分数。但是,我如何重现这个相似性分数呢?
在我的数据集中,我有8个基因,并创建了一个距离矩阵,其中d_{ij}包含基因i和基因j之间的欧几里得距离。然后,我通过将矩阵中的每个元素除以最大值来归一化矩阵。为了得到相似度矩阵,我从1中减去所有元素。但是,我的结果没有使用链接类型,并且与输出的相似度得分不同。
我主要困惑的是链接如何影响第一个节点的相似性(最接近的两个基因的连接)以及如何计算相似性分数。
谢谢!
发布于 2013-07-16 06:20:22
该算法使用某种链接方法来比较集群,而不是数据点。然而,在算法的第一次迭代中,每个数据点形成了自己的集群;这意味着您的链接方法实际上简化为您用来测量数据点之间的距离的度量(对于您的情况,欧几里德距离)。对于后续的迭代,集群之间的距离将根据您的链接方法来测量,在您的示例中是平均链接。对于两个集群A和B,其计算方法如下:
其中d(a,b)
是两个数据点之间的欧几里德距离。说服自己,当A和B只包含一个数据点时(就像在第一次迭代中一样),这个等式就会简化为d(a,b)
。我希望这能让事情变得更清楚一些。如果不是,请提供更多详细信息,说明您到底想做什么。
https://stackoverflow.com/questions/16503533
复制相似问题