情况如下:
我有一个文档数据集,我已经根据它们的主题手动分配给(地面)集群。然后,我使用层次聚集聚类(HAC)自动对同一数据集进行聚类。我现在试图使用对计数f测度来评估HAC集群( Darius Pfitzner,Richard Leibbrandt & David Power在描述和评估对聚类的相似性度量中描述了这一点)。
然而,我面临的问题是,我的手动集群生成了扁平的集群(因此集群之间没有任何关系),而HAC发现的集群是分层的。因此,在查看树状图时,根据您选择的深度(水平线),您有不同数量的集群(深度为0(根节点),只有一个集群;在最大深度,您的集群数等于数据集中的元素数)。
所以
类似于BigTable的数据库存储按键排序的行。
Cassandra使用分区键和聚集键的组合来保持数据的分布式和排序;但是,只有通过分区键才能选择行!
Cassandra架构是如何以这种方式工作的?
例如,RocksDB中的一种解决方法是,您可以按分区键使用一个默认的列族,而使用分区和集群组合键使用另一个默认的列族,并迭代排序后的数据并按默认的列族进行检索,这最终会带来非常高的空间复杂性!
更新:我猜Cassandra试图将每一列存储在不同的键中,它从分区键开始,遍历不同的“列名”-可能是聚类列的其他组合。请参阅底层存储引擎-的图片。
SELECT * From authors WHERE n