在Elasticsearch中,是否可以将共享最相似文本的文档分组,而不提供一个可以比较的初始查询?
我知道可以查询和获取MLT(“更像这个文档”),但是,是否可以根据字段值在索引中对文档进行聚类?
例如,:
document 1: The quick brown fox jumps over the lazy dog
document 2: Barcelona is a great city
document 3: The fast orange fox jumps over the lazy dog
document 4: Lotus loft Room - Bear Mountai
我知道我可以使用以下代码获取K-means集群中特定集群的内容,并使用scikit-learn。
order_centroids = model.cluster_centers_.argsort()[:, ::-1]
terms = vectorizer.get_feature_names()
for i in range(true_k):
print "Cluster %d:" % i,
for ind in order_centroids[i, :10]:
print ' %s'