删除字符串中的停用词以创建聚类_将csv文件中列的字符串值转换为整型或浮点型，以在Python中创建Kmeans聚类算法_创建正则表达式以从字符串中删除与跟踪相关的urls - 腾讯云开发者社区

java

它是用Java编写的。我不能实现的是，我应该如何修改代码： https://github.com/OpenRefine/OpenRefine/blob/master/main/src/com/google/refine/clustering/binning/FingerprintKeyer.java 尤其是这里的第93行： https://github.com/OpenRe

浏览 9提问于2020-10-05得票数 0

回答已采纳

1回答

Javascript:使用字典从字符串中过滤单词？

javascript

我需要从一个字符串中过滤出几百个“停”字。因为有很多“停止”的词，我不认为这样做是个好主意：我如何创建类似哈希图的东西来存储停用的单词？在这个映射中，键本身就是一个停用词，值并不重要。则过滤将导致检查该单词是否不存在于停用词映射中。使用什么数据结构来构建这样的地图？

浏览 0提问于2012-02-23得票数 0

1回答

文本聚类:选择k中的k表示

javascript、cluster-analysis

在消除了停用词并在一组文档中应用了词干处理后，我在Javascript中应用了二分K-means，以便对从一些网页接收到的一组文档进行聚类，以找到它们之间的相似性。当有基于文本的集群时，应该用什么方法来确定应该创建多少集群？我看到了一些方法，如Elbow、Silhouette或信息标准方法，但假设我没有任何关于我创建的集群的信息，其他方法似乎更适合于数字集群，而不

浏览 1提问于2017-08-15得票数 1

2回答

在java中对相似的值进行分组

java、math、cluster-analysis、classification

首先，感谢您阅读我的问题。我使用，然后对这些值，我计算余弦相似度，看看有多少文档更相似。您可以看到以下矩阵。列名像doc1，doc2，doc3，行名像doc1，doc2，doc3等。借助下面的矩阵，我可以看到doc1和doc4有72%的相似性(0.722711142)。即使我看到这两个文档是相似的，它也是正确的。我有1000个文档，我可以看到每个文档的频率。以查看它们中有多少是相似的。我使用了不同的聚类，如k-means和agnes (层次)来组合它

浏览 9提问于2010-02-09得票数 3

6回答

从text C#中删除停用词

我想要从输入字符串中删除一个停用词的数组，我有以下步骤foreach (string word in arrToCheck )input = input.Replace(word, "");这是执行这个

浏览 0提问于2012-05-04得票数 2

回答已采纳

1回答

kmeans的问题

r、statistics、cluster-analysis、k-means、text-mining

我有一个关于R中k-means聚类的问题。实际上，我正在根据这个做所有的事情。所有内容都基于tm包中的示例，因此不需要数据导入。acq包含50个文档和20个原始文档。.) : 我实际上想创建交叉协议矩阵。但这篇文章是在2008年写的，从那以后发生了很多变化。数据函数只在RSurvey包中可用，但我有点怀疑它是否相同

浏览 0提问于2011-11-10得票数 2

回答已采纳

1回答

使用K-means聚类文本数据中的聚类ID作为监督学习模型的特征是不是一个坏主意？

machine-learning、nlp、cluster-analysis、supervised-learning、feature-engineering

我正在构建一个模型，该模型将预测流经管道的产品的提前期。我在想，最好对这些数据进行某种类型的聚类，然后使用集群ID作为我的模型的一个特征，也许交付期与该字段中存在的信息类型相关。以下是我<

浏览 1提问于2020-02-09得票数 1

2回答

在Snowflake中，对一个非常大的表执行删除操作的最佳方法是什么？

snowflake-cloud-data-platform

从15亿行表格中删除3900万行在x-small仓库上需要15分钟，在小型仓库上需要8分钟，在中型仓库上需要5分钟。我们可以在更大的实例上投入资金，但在探索所有其他方法之前，我们真的不想这样做。我们还在考虑实现手动分区系统，以将表分块，但创建支持功能会有开发成本。 Snowflake有没有一个我不知道的分区系统，等同于SQL Server？我知道这是一个范围，但交换分区是很棒的。感谢您的反馈！

浏览 2提问于2019-10-25得票数 3

4回答

如何转换具有相同重复字母的否定和单个单词

python-3.x、nlp、text-processing

我有一个数据框，其中有一个包含文本数据的列。我想从文本数据中删除没有任何意义的单词，并将"is‘t“之类的否定转换为”is not“。因为当我删除标点符号时，“I‘t”变成了“I t”，当我删除长度小于2个字母的单词时，"t“将被完全删除。所以，我想做以下3个任务- 1)将否定转换为"is not“to”is not“2)删除没有意义的单词3)删除长度

浏览 3提问于2019-03-30得票数 1

回答已采纳

1回答

在MATLAB中存储每次for循环迭代的输出

matlab、loops、for-loop

我有一个计算2D矩阵(数据；维度为512x512)文件的聚类系数的函数(clustering_coef_bu)。该函数的输出向量以双精度格式创建一个512x1矩阵(聚类系数)。使用下面的for循环，我将计算每个矩阵(数据)的聚类系数。但是，我很难存储for循环每次运行的输出聚类系数。理想的做法是将每个矩阵<em

浏览 0提问于2013-08-07得票数 0

1回答

在雪花中设置表自动聚类不是对表进行聚类

snowflake-cloud-data-platform

大约两周前，我从手动聚类转向自动聚类。然后我看到聚类到处都是。我曾经也做过手动集群，并且看到集群做得很好。然而，在下一个插入在主表中。<e

浏览 0提问于2019-08-20得票数 0

3回答

在Python中删除不带标记化的停用词

python、stop-words

我正在尝试从练习中的字符串列表中删除停用词：，我的解决方案如下：labels = [] sentences.append(sentence) 但是当我对单词进行标记化时，单词索引是131530，这比预期的要大得多sentences) word_index = tok

浏览 0提问于2019-09-14得票数 1

1回答

从较大的坐标集合中选择一个较小的“均匀分布”坐标样本

python、analytics、sample

我有一组城市不同建筑的坐标(纬度和经度)。样本大小约为16,000。我计划使用这些坐标作为他们的位置/邻里的中心点，并对城市的不同邻里做一些分析。到目前为止，每个社区的“半径/大小”仍然没有决定。然而，这些坐标中的很多都太接近了。所以，他们中的许多人实际上代表了相同的地区/邻里。因此，我想选择一个更均匀分布的坐标的较小样本(例如，3-6k)。示例：-如果两个坐标代表两个

浏览 30提问于2020-09-22得票数 0

1回答

K-均值聚类与聚类结合

clustering、k-means

我试图在作者的图表中识别出6个聚类。当作者在一篇论文上合著时，他们就与边缘联系在一起.我已经用K-均值(6-均值)和聚集聚类创建了一个聚类.现在，我想将这两种聚类方法结合起来，以获得更精确的集群。我能够找到相应的聚类，但是当算法不一致时，我不知道如何决定作者属于哪个集群。可能我可以使用某种形式的线性组合，但我

浏览 0提问于2016-01-13得票数 2

1回答

如何在Postgresql中删除字符串中的停用词后删除引号和数字

regex、postgresql、full-text-search、stop-words

我有一个包含字符串列的表。我从字符串中删除了停用词，然后结果如下所示(以某种方式连接到这个和@IMSoP建议的另一种情况)我想去掉这些引号和:和数字。

浏览 0提问于2017-02-02得票数 1

回答已采纳

1回答

文件名图的聚类以重新组合文件夹中的文件

algorithm、cluster-analysis

我正在寻找已知的良好算法(模糊)聚类相似的文件名，发现在一个文件夹的层次结构。我的目标是开发一个应用程序：删除

浏览 3提问于2014-07-29得票数 1

回答已采纳

3回答

LDA模型对句子(而不是文档)聚类/分类有用吗？

pyspark、cluster-analysis、text-mining、text-classification、lda

最近，我正在研究句子分类问题，这些句子只是一到两行关于产品的评论，客户在那里发布关于产品必须提供的各种功能的反馈。经过预处理(删除停用词和词干)后，我使用特征提取库(如word2vec，tf-idf)和聚类算法(k-mean)对我的句子进行无监督句子分类-输出是相当可接受的。然而，我正在寻找更多关于聚类算法的选择，特别是想尝试LDA来进一步提高输出质量。然而，我遇到了的</

浏览 0提问于2017-10-24得票数 1

16回答

纸男孩的聚类算法

algorithm、language-agnostic、cluster-analysis

我需要帮助选择或创建一个聚类算法根据一定的标准。每个集群应该有大约相同数量的地址。但是，如果群集的地址分布得更广，集群的地址可能会更少。(另一种方式是:最小数量的集群，其

浏览 15提问于2009-02-18得票数 34

回答已采纳

2回答

截断LDA主题

nlp、gensim、lda

虽然我获得了可很好地解释的主题(基于最热门的单词)，但特定文档往往大量加载非常“通用”的主题，而不是专门的主题--即使文档中最常见的单词是专门的。例如，我有一份房地产报告作为文档。频率最高的单词是"reit"，“reit”，"growth“。现在，我有了一个“专门的”主题，最热门的词正是这三个。然而，专门化主题的负载率是9%，32%的主题是非常分散的

浏览 23提问于2021-06-30得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云