改进短文本聚类性能

文章/答案/技术大牛

发布

1回答

我目前正在做短文本聚类，并且已经从这个github link实现了gsdmm，数据集大小为2675，单词大小为1231。然而，聚类结果不是很准确，我认为这可能是因为数据集包含在我正在处理的领域中具有不同含义的相似单词/短语。有没有其他算法可以很好地对短文本进行聚类？

浏览 23提问于2020-07-03得票数 0

2回答

解释聚类度量

、、

我在Scikit中用k均值进行聚类，学习398个样本，306个特性。特征矩阵稀疏，簇数为4。为了改进聚类，我尝试了两种方法：我的问题是：

浏览 4提问于2016-08-03得票数 1

回答已采纳

1回答

雪花查询性能提升

、、

Snowflake不允许创建索引，也就是说，有哪些方法可以提高我的SQL查询性能？在过去，我会创建#temp表并创建一些索引，但这是不可能的。有什么建议吗？

浏览 13提问于2021-03-19得票数 0

回答已采纳

4回答

聚类算法的性能分析

、、、

在完成聚类之后，我希望对两种不同的聚类算法进行性能比较。对于聚类算法，是否还有其他的角度来识别性能(或缺乏)？ T

浏览 7提问于2012-03-13得票数 1

回答已采纳

1回答

使用假时间戳在谷歌BigQuery上创建分区

、

谷歌BigQuery (BQ)允许您仅使用timestamp或date类型创建分区。这种策略的问题是，有些客户有5M行，其他客户有200K行，而且由于BQ没有索引，它们总是在处理彼此的数据(而且成本还在上升)。这有什么意义吗？如果BQ是一个索引数据

浏览 56提问于2019-05-20得票数 0

回答已采纳

1回答

在MATLAB中删除聚类算法中的循环

、、、、

我试图提高光学聚类算法的性能。我在开源中找到的实现为每个示例使用了一个for循环，并且可以运行几个小时.以下是代码： X是数据:一个mxn数组，其中m是样本大小，n是特征维数，这在大多数情况下明显大于一个。

浏览 2提问于2015-07-07得票数 3

回答已采纳

0回答

如何从rapidminer中的聚类方法计算Davies Bouldin？

、

我想在没有k-means的情况下对数据进行聚类。例如，我更喜欢使用DBSCAN或支持向量聚类进行聚类。因此，我需要使用Davies Bouldin度量来评估聚类的性能，但我不知道如何在Rapidminer for DBSCAN或支持向量聚类中计算Davies Bouldin。请帮帮我。谢谢。

浏览 10提问于2017-06-09得票数 0

回答已采纳

1回答

改进聚类结果

、、

我是个初学者，我试着对多句文字进行聚类，但是我的结果很糟糕。有什么建议可以让我提高成绩吗？

浏览 0提问于2018-07-27得票数 2

回答已采纳

2回答

聚类均匀度分析及RapidMiner中簇距离性能算子的应用

、、

我已经在数据集上实现了k-均值聚类。我尝试通过查看快速采煤机中的平行图和偏差图来分析聚类的k。为了分析各种性能模型的clusters.Out的同质性，将算子“集群距离性能”算子用于k-均值聚类结果。质心表结果而性能向量算子的结果是有人能帮我吗？虽然我读到越小，Davies的值越小，更好的是聚

浏览 4提问于2016-07-27得票数 0

1回答

时间序列聚类质量度量

、、、

我是聚类时间序列数据集，这些数据集没有标签(没有根据事实)，我想衡量集群的质量。你能不能建议一下可以用于时间序列聚类的聚类性能评估方法？

浏览 0提问于2018-10-06得票数 1

1回答

operators..what :集群性能是否意味着不同的值？

、、

在rapidminer中，我必须使用不同的性能操作符来检查各种聚类算法的性能。为此，我想知道以下几点：我还想检查其他索引值，如Dunn索引、Jaccard索引、Fowlkes- algos等，用于各种聚类算法。

浏览 5提问于2013-07-17得票数 0

1回答

react-native-map标记聚类或性能改进

许多文章说react-native-maps集群库，如react-native-maps super-cluster有助于优化性能。然而，我发现集群功能会导致应用程序性能的延迟。因此，我希望改进使用另一个选项(即根据视图变化进行标记显示？) 你能帮我一下吗？

浏览 2提问于2020-02-09得票数 0

1回答

如何在R中评估kmeans聚类性能

我对如何使用kmeans聚类来计算聚类性能感到困惑。如果在监督学习中，我们使用混淆矩阵来计算分类性能。那么无监督学习呢，在这种情况下我使用的是kmeans？任何人都可以在R中使用kmeans展示集群性能？

浏览 18提问于2021-03-12得票数 0

1回答

为什么Snowflake自动集群如此昂贵？

我们目前每月为一些表的自动聚类支付近100个积分，但同时我们也手动维护所选表的聚类，而这只需要几个积分。这些并不具有很好的可比性，因为表是不同的，但我们强烈认为自动集群通常更昂贵。

浏览 3提问于2019-10-29得票数 3

2回答

如何使用k-means (Flann和python)对文档进行聚类？

、、、、

我想根据相似性对文档进行聚类。我已经尝试过ss深处(相似散列)，非常快，但是我被告知k-means更快，而flann是所有实现中最快的，所以我尝试用python绑定来尝试flann，但是我找不到如何在文本上这样做的例子(它只支持数字数组我的问题是：弗兰是正确的选择吗？如果不是，请建议我使用支持文本/文档集群的高性能库，该库具有pytho

浏览 9提问于2012-09-19得票数 11

回答已采纳

1回答

一种面向FastText的聚类方法

、

我正在使用预先训练好的fastText ()向量对短聊天消息执行聚类。这意味着结果向量将是组成消息的令牌的平均值。我最初开始使用k-means，但现在我想知道这是否是正确的选择。在这种情况下，如何选择正确的聚类方法？

浏览 0提问于2018-08-22得票数 2

1回答

如何在使用sklearn Kmeans时避免Kmeans局部最优

、、

Notes说“‘k-means++’：以一种智能的方式为k-means聚类选择初始聚类中心，以加快收敛速度。有关更多详细信息，请参阅k_init中的注释部分”。有没有关于获得局部最优的概率的数据？

浏览 0提问于2018-12-27得票数 0

1回答

如何为领域特定的表征学习任务训练bert模型？

、、、

我正在尝试为一些特定类型的文本生成良好的句子嵌入，使用句子转换模型测试相似度，而使用kmeans进行聚类并不能给出好的结果。有什么需要改进的想法吗？

浏览 5提问于2020-12-08得票数 0

2回答

标签聚类

、、、、

有的只有1那么短，有的可以和50+技能一样长。我想把一组技能聚在一起(直觉地说，同一群人会有一套非常相似的技能)。最后，我使用KMeans对n=50进行聚类，但是结果并不是最优的--聚在一起的技能组看起来非常不相关。我应该如何改进结果呢？我也不确定SVD是否是这个用例中最合适的降维形式。

浏览 2提问于2018-08-21得票数 1

回答已采纳

1回答

在两个不同的聚类集中映射相似的簇

、、、

通过分析两组不同的新闻报纸文章，我得到了两组集群(Cluster_set_1和Cluster_set_2)。C1 in Cluster_set_1: Energy, Fuel, Oil, Mining...etc. C2 in Cluster_set_2: program, business, managemen

浏览 0提问于2017-08-18得票数 3

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云