我有一个聚类算法,将集群存储在HashMap<String, ArrayList<String>>中。
我需要将它与存储在另一个HashMap<String, ArrayList<String>>中的基本事实进行比较。
键是不同的,因为数组是通过增量聚类创建的,所以我想知道如何将原始聚类与生成的聚类进行比较。
我使用NMI和BCUBED作为集群评估指标,但我的问题是,如果它们具有不同的键,如何引用相同的集群(ArrayList)。
有什么想法吗?
发布于 2011-04-05 20:38:27
我不是100%清楚你的类是如何设置的,HashMap<String, ArrayList<String>>是如何工作的,但我倾向于你应该有一个密钥的哈希表。所以当你分配集群的时候,你可以这样做。
原始数据:
Hashmap<String, ArrayList<String>> = key: Array Of Original Data您可以将每个集群中的内容存储为以下函数:
HashMap<String, ArrayList<String>> = Cluster Key: Array of Original Data Keys这会给你一种机制来循环每个集群中的对象,并且仍然保持原始对象的状态,这有意义吗?这样你最终就能写出类似于:
for(String clusterKey : clusterMap.keySet()){
for(String itemKey : clusterMap.get(clusterKey)){
calculateDistance(centroid, originalMap.get(itemKey);
}
}这是一种严重的过于简单化,但应该会让你朝着正确的方向前进。
我还假设有一个到集群本身的质心的HashMap。因此,可以将calculateDistance()方法重写为calculateDistance(centroidMap.get(clusterKey), originalMap.get(itemKey));
发布于 2011-04-05 20:47:21
我猜您可以创建一个反向HashMap,其中的KeyObj是一个具有ArrayList和计数器的新对象。
在反向HashMap中,密钥的计数器将是相等的ArrayLists的数量。
现在比较算法很简单:遍历第一个HashMap的值,并搜索作为新HashMap的键的值。如果找到了密钥并且计数器为0,或者没有找到密钥,则返回false。否则,一定要计算--并继续进行下一次迭代。最后,返回true。
https://stackoverflow.com/questions/5551569
复制相似问题