文本聚类python_python文本聚类_在Python中聚类文本 - 腾讯云开发者社区

python、machine-learning、text-analysis、unsupervised-learning

最近，我从事图像聚类工作，找到相似的图像并将它们分组在一起。我使用了python的skimage模块来计算SSIM，然后根据确定的阈值对所有图像进行聚类。我想对文本做类似的操作。我想创建包含相似文本的自动聚类。例如，cluster-1可以包含代表职业母亲的所有文本，cluster-2可以包含代表人们谈论食物等内容的所有文本。我知道这必须是无监督的学习。我们有没有类似的python模块可以帮助完成这个任务？我还检查了google的tensorflow，看看是否可以从中获得一些东西，但在它的文档中没有找到任何与文本聚类相关的内容。

浏览 1提问于2018-06-11得票数 0

3回答

Python中的文本聚类

python、cluster-analysis、nlp

我需要对一些文本文档进行聚类，并且一直在研究各种选项。看起来LingPipe可以在没有事先转换的情况下聚类纯文本(到向量空间等)，但它是我见过的唯一一个明确声称可以在字符串上工作的工具。有没有可以直接聚类文本的Python工具？如果不是，处理这个问题的最好方法是什么？

浏览 0提问于2009-11-24得票数 23

回答已采纳

1回答

在Python中实现文档间语义相似度的聚类

nlp、semantic-ui、similarity、hierarchical-clustering

我有大约1000个文档(类似段落的文本)。我希望找到文档之间的相似性，以便对文档进行聚类。最后，我想做分层聚类。我想用Python实现。如何处理这件事。

浏览 6提问于2018-08-09得票数 0

回答已采纳

1回答

从没有标签或目标的文本数据中推断

nlp、clustering、text-mining

我有一个用例，在这个用例中，审批者在批准某些贷款时输入了文本数据。对于使用NLP批准的理由，我必须作出一些推论。我该怎么做呢？这是一种非英语语言。文本聚类有帮助吗？？是否可以使用python库对非英语语言的文本进行聚类？

浏览 0提问于2020-08-19得票数 0

1回答

如何应用nltk对问题进行分类

python、nlp、data-mining、text-mining、text-classification

我有一个从在线网站提取的文本文件中的问题列表。我是第一次接触nltk (Python语言)，并且经历了( )的初始章节。请任何人帮我把我的主题归类在不同的标题下。我不知道问题的标题。那么，如何创建标题和分类，然后呢？

浏览 2提问于2015-03-12得票数 0

3回答

基于距离矩阵的词聚类

python、cluster-computing、scikit-learn、hierarchical-clustering

我的目标是根据单词与文本文档语料库的相似度对单词进行聚类。我已经计算了每对单词之间的Jaccard相似度。换句话说，我有一个可用的稀疏距离矩阵。有没有人能给我介绍一些以距离矩阵作为输入的聚类算法(可能还有它的Python库)？我事先也不知道集群的数量。我只想对这些单词进行聚类，并获得哪些单词聚在一起。

浏览 0提问于2013-04-27得票数 24

1回答

Python文本挖掘库

api、python-2.7、web2py、text-mining

我必须使用Python2.x在web2py中构建一个文本挖掘应用程序。app的目的是从网站收集数据，将它们保存在一个文本文件中，然后将该文本文件传递给程序进行文本到矩阵的转换，最后我必须对该数据应用聚类。我的问题是，我可以使用什么开源库或API来涵盖文本到矩阵的转换，并在Python2.x上对其应用集群？

浏览 0提问于2013-12-04得票数 0

1回答

基于特定关键字创建集群

nlp、clustering、k-means、python-3.x、association-rules

我正在处理原始文本数据。我正在使用聚类将文档中的常见单词组合在一起。我的要求是根据特定的单词列表创建集群，也就是说，我想获得一组通常与用户给定的单词列表一起发现的单词。从视觉上看，集群应该如下所示。通常，集群技术的重点是创建隔离的集群，而我需要有一些重叠的隔离集群。图像显示了预期结果的视图。我尝试过使用k均值聚类、Apriori算法和Python中的PrefixSpan。但我想要的结果没有实现。如有任何建议，将不胜感激。 📷

浏览 0提问于2021-03-30得票数 0

1回答

有没有一种无监督的聚类技术可以自己识别数字聚类？

tensorflow、scikit-learn、gensim、unsupervised-learning、fasttext

我在gensim，find text，sklearn上检查了无监督聚类，但没有找到任何文档，在这些文档中，我可以使用无监督学习对文本数据进行聚类，而不是提到要识别的聚类数量例如，在sklearn KMneans集群中 km = KMeans(n_clusters=true_k, init='k-means++', max_iter=100) 我必须提供n_clusters。在我的例子中，我有文本，它应该自动识别其中的聚类数量，并对文本进行聚类。任何参考文章或链接非常感谢。

浏览 0提问于2018-09-20得票数 0

1回答

基于情感的文本数据聚类？

python、nlp、multiclass-classification、unsupervised-learning、sentiment-analysis

我从Amazon上摘除评论，目的是进行情感分析，将其分为正向、负面和中性。现在我得到的数据将是文本和未标记的。我处理这个问题的方法如下： 1.)使用DBScan、HDBScan或KMeans等聚类算法对数据进行标记。集群的数目显然是3。 2.)对标签数据进行分类算法的训练。现在，我从未对文本数据执行过聚类，但我熟悉聚类的基本知识。所以我的问题是： 1.我的方法正确吗？ 2.对于基于文本的集群，我可以遵循任何文章/博客/教程，因为我对此还有点陌生吗？ PS:我对NLP和分簇都很熟悉，但是我从来没有对文本数据执行过聚类。

浏览 0提问于2021-12-25得票数 1

回答已采纳

1回答

文本的主题聚类

clustering、text-classification

请就与文本专题聚类有关的起点、研究(论文、框架)提供咨询意见。特别是在具有两个聚类级别的系统上，其中第二级具有时态性质。谢谢! 更新：抱歉，我的第一个问题含糊不清。我需要澄清的是，我有一般的聚类经验，尤其是文档聚类的经验，在向量空间中使用TFIDF、word嵌入(word2vec、Glove和BERT语句嵌入)的文本。我的问题来源于一些提到“第二层次具有时间性质的文本主题聚类的两个层次”的文本。我只想知道这种技术，特别是集群中使用的“时态特性”。

浏览 0提问于2020-04-05得票数 1

1回答

大数据集的python中的共识聚类

python、cluster-analysis、consensus

我在python 中找到了一个非常好的共识聚类实现。然而，对于具有大样本大小的大数据集，该算法将不起作用，因为它使用维度样本、样本来构建矩阵。对于大型数据集上的共识聚类，有没有高效的python实现？

浏览 12提问于2021-03-07得票数 0

3回答

如何应用集成聚类方法？

python、data-mining、scikit-learn、clustering、ensemble-learning

我需要使用集成聚类方法，在我的数据集中使用python。我已经通过使用scikit学习库应用了k-均值聚类。我还应用了不同的分类方法，也发现了集成分类方法在科学学习中的应用.现在我感到困惑的是，在scikit中是否存在用于集成聚类的库，或者我如何将集成聚类方法应用于我的数据集？

浏览 0提问于2018-02-03得票数 0

1回答

基于文档文本创建文档聚类

cluster-analysis、knn、cosine-similarity、unsupervised-learning、morelikethis

在Elasticsearch中，是否可以将共享最相似文本的文档分组，而不提供一个可以比较的初始查询？我知道可以查询和获取MLT(“更像这个文档”)，但是，是否可以根据字段值在索引中对文档进行聚类？例如，： document 1: The quick brown fox jumps over the lazy dog document 2: Barcelona is a great city document 3: The fast orange fox jumps over the lazy dog document 4: Lotus loft Room - Bear Mountai

浏览 2提问于2019-01-25得票数 2

2回答

如何使用k-means (Flann和python)对文档进行聚类？

nlp、cluster-analysis、data-mining、k-means、text-mining

我想根据相似性对文档进行聚类。我已经尝试过ss深处(相似散列)，非常快，但是我被告知k-means更快，而flann是所有实现中最快的，所以我尝试用python绑定来尝试flann，但是我找不到如何在文本上这样做的例子(它只支持数字数组)。我对这个领域(k-意思，自然语言处理)非常陌生.我需要的是速度和准确性。我的问题是：我们是否可以使用KMeans进行文档相似分组/聚类(Flann似乎不允许任何文本输入) 弗兰是正确的选择吗？如果不是，请建议我使用支持文本/文档集群的高性能库，该库具有python包装器/API。 K-表示正确的算法吗？

浏览 9提问于2012-09-19得票数 11

回答已采纳

1回答

集群验证:如何验证和度量预定义的集群

python、validation、cluster-analysis

我对python很陌生，我正在开发一个消费数据集，在这里我们使用LCA、K-Means、DBSCAN和谱聚类来计算集群。在所有这些方法中，簇的数目是不同的(在K-均值中为EG-5簇，而LCA中为7)，自变量可能是相同的，也可能不是相同的(例如- 12个自变量在K-均值中，10个在LCA中)。现在我要用聚类内聚、聚类分离、熵、纯度、Jaccard Coeff、RAND指数等对集群进行验证。这些措施是否适用于集群验证？在python中有函数/库可以一次计算这些函数/库吗？如果没有可用的函数/库，如何在python中计算这些值。希望我是清楚的，并感谢您的帮助，提前。

浏览 8提问于2021-02-23得票数 0

1回答

如何比较k均值和层次聚类结果

clustering、k-means、unsupervised-learning

我使用两种类型的聚类算法，我采用分层聚类，K-均值聚类使用python库。现在的结果有点不同，那么我如何比较结果和使用哪种算法呢？因为我想为一组未标记的数据写一个结论。使用多个算法并在它们之间进行比较有什么好处？

浏览 0提问于2020-12-12得票数 0

回答已采纳

1回答

如何从已有的文本聚类中提取主题？

nlp、cluster-analysis、lda、topic-modeling

我在一个文本语料库上执行了硬聚类(使用tf-idf权重)，并获得了~= 200聚类。如果我想获取每个集群的topic，我该怎么做？我已经尝试在原始文本语料库(预聚类)上使用LDA，并获得了许多主题，但是我不确定如何将这些主题映射到我现有的每个聚类上。有没有其他方法可以推荐LDA，或者LDA是正确的方法，我该如何继续呢？在线材料只展示了如何将lda主题映射到文档句子上，而不是预先存在的聚类。如果我这样做，并根据它们分配的主题对这些句子进行分割，我将得到与原始聚类不同的结果(这并不理想)。感谢您的帮助提前，如果有任何概念上的错误，请原谅，因为我是相当新的NLP。

浏览 38提问于2019-12-16得票数 1

回答已采纳

4回答

数以百万计的高维数据的聚类

dataset、cluster-analysis、large-data

我有一组5000万个文本片段，我想从它们中创建一些集群。维度可能在60k-100k之间。文本片段的平均长度为16个单词。正如你可以想象的，频率矩阵将是相当稀疏的。我正在寻找一个软件包/ libray / sdk，可以让我找到这些集群。我曾经尝试过CLUTO，但这对CLUTO来说似乎是一项非常繁重的任务。从我的在线研究中，我发现BIRCH是一种可以处理这类问题的算法，但不幸的是，我在网上找不到任何BIRCH实现软件(我只找到了几个特别的实现，比如分配项目，缺乏任何类型的文档)。有什么建议吗？

浏览 3提问于2011-09-15得票数 3

1回答

如何在没有类别数量的情况下对文本进行聚类？

machine-learning、cluster-analysis

我想在不知道类别数量的情况下对几个简短的文本进行聚类。有没有可以用来实现它的技术和算法？谢谢。

浏览 7提问于2017-07-12得票数 0

2回答

层次聚类中的阈值

python、machine-learning、cluster-analysis、scikit-learn、hierarchical-clustering

我对集群和做一些关于集群tweet的小项目很陌生，我使用了TF，然后使用了层次化聚类。我对为分层聚类设置阈值感到困惑。它的价值应该是什么?如何决定它？我使用python模块来实现。

浏览 4提问于2014-04-23得票数 0

回答已采纳

4回答

Python KMeans聚类词

python、cluster-analysis

我感兴趣的是对距离度量为Leveshtein的单词列表执行kmeans聚类。 1)我知道有很多框架，包括具有kmeans实现的scipy和orange。然而，它们都需要某种类型的向量作为数据，这并不适合我。 2)我需要一个好的集群实现。我研究了python-clustering，并意识到它不会a)返回到每个质心的所有距离的总和，b)它没有任何类型的迭代限制或中断来确保聚类的质量。python聚类和daniweb上的聚类算法对我来说并不是很有效。有没有人能给我找个好地方？谷歌不是我的朋友

浏览 2提问于2010-03-17得票数 9

3回答

python中的谱聚类图

python、scikit-learn、cluster-analysis、graph-theory、spectral

我想使用谱聚类在python中对图进行聚类。谱聚类是一种更通用的聚类技术，它不仅适用于图形，也适用于图像或任何类型的数据，但它被认为是一种特殊的图聚类技术。遗憾的是，我在python网上找不到谱聚类图的例子。 Scikit学习有两种光谱聚类方法：和，它们似乎不是别名。这两种方法都提到，它们可以用于图表，但没有提供具体的说明。。我有，但他们工作过度，还没有达到目的。是一个很好的网络来记录这一点。它包括了。我很想在这方面有个方向。如果有人能帮我解决这个问题，我可以将文档添加到scikit学习中。备注：。

浏览 9提问于2017-09-16得票数 33

回答已采纳

1回答

模糊聚类的分离测度

python、scikit-learn、fuzzy-classification

是否有用于模糊聚类的分离度量，如Sillohete评分？我理解硬聚类算法的逻辑，但不确定模糊。是否有一个Python包，例如scikit-learn？

浏览 0提问于2021-06-16得票数 0

回答已采纳

2回答

用python进行时间序列聚类

time-series、clustering

我有多个不同客户的时间序列数据(大约10k客户，100天)。我想把这些数据聚成5-10组。但是，我没有关于时间序列聚类的任何提示。K手段对他们有用吗？任何python包都可以处理这些数据吗？任何帮助都很感激。

浏览 0提问于2022-02-08得票数 4

2回答

python :使用sklearn解决文档聚类中的内存问题

python、scikit-learn、cluster-analysis、tf-idf

我正在使用TfIdfVectorizer的sklearn进行文档聚类。我有2000万个文本，我想要计算集群。但是计算TfIdf矩阵花费了太多的时间，系统陷入了困境。有什么技术可以解决这个问题吗？在任何python模块中是否有其他方法可供选择？

浏览 0提问于2016-11-03得票数 0

回答已采纳

2回答

聚类与分类

python、classification、clustering

我对此有点陌生，但我只是简单地问了一个关于聚类和分类的问题。我有一堆要分类的文字。目前我有4门课，但课文可以属于多个班级。到目前为止，我看到的是进行4种二进制分类，但我想知道是否有一种分类算法，可以实现属于多个类的文本。或者，我可以通过具有重叠簇的集群来实现这一点吗？我试着用Python来做这件事。

浏览 0提问于2020-07-16得票数 0

1回答

ClusterDump in Mahout 0.9

hadoop、mahout

我有一个与Mahout0.9中的集群转储有关的问题，同时进行文本聚类- 集群转储的一种情况是输出最上面的k核，并且没有指定参数p (pointsDir)。集群转储的第二种情况是指定参数p (pointsDir)并获得与集群关联的点。这两个输出都具有相同的集群id，但是在案例1中显示的记录数量(显示顶级项的数量与在案例2中显示的记录数)不同，在案例2中，您获得与集群关联的点数。这一切为什么要发生？我的意思是，它可以看到与特定集群相关的不同#点，而不确定哪一个是正确的？有人见过这种事吗？提前谢谢你！

浏览 1提问于2015-02-07得票数 0

回答已采纳

3回答

python中基于基因表达矩阵的层次聚类

python、numpy、machine-learning、matplotlib、scipy

我如何在Python中进行分层聚类(在本例中是针对基因表达数据)，以显示基因表达值矩阵和树状图？我的意思是像下面这样的例子：在项目符号6(图1)之后显示，其中树状图绘制在基因表达矩阵的左侧，其中行已重新排序以反映聚类。如何在Python中使用numpy/scipy或其他工具执行此操作？另外，用欧几里德距离作为度量，用大约11,000个基因的矩阵来做这件事，在计算上可行吗？编辑:很多人建议使用聚类包，但我仍然不确定如何绘制上面在Python中链接的图像。例如，我如何使用Matplotlib将树状图覆盖在热图矩阵旁边？谢谢。

浏览 0提问于2010-06-05得票数 3

1回答

选择合适的聚类方法进行潜在语义分析

cluster-analysis、latent-semantic-indexing、latent-semantic-analysis

我想对一些文本文档进行聚类，以找到具有相同概念的文档。我已经使用潜在语义分析(LSA)进行了语义相似性分析，但我搞不清应该选择哪种聚类方法来实现我的目的。谢谢

浏览 1提问于2015-06-19得票数 0

1回答

地理定位聚类

python-3.x、geolocation、cluster-analysis

我正试图将点聚到最近的邻居。我有一个包含人口、纬度和经度的数据集。由于聚类工作在距离测量和这里的协调是地理位置，我如何处理这个问题在python？

浏览 11提问于2022-11-02得票数 0

1回答

基于语义相似度的分层聚类算法

python、similarity、semantics

我对整个集群和其他方面都很陌生，所以我有点迷失在编程的最后一步。我正在做一个基于主题语义相似性的项目，该项目使用层次化算法对学生进行聚类。我所理解的是，我必须收集列表中的所有主题，然后应用像分层聚类这样的聚类技术。如何用python编写代码，根据主题之间的语义相似性对学生进行聚类？

浏览 5提问于2022-02-15得票数 -1

1回答

好友聚类算法(Python)

python、machine-learning、cluster-analysis、social-networking、hierarchical-clustering

我想在Python中实现一个“朋友中的朋友”算法，在这个算法中，对于N维空间中的一组点(在我的例子中，是二维的)，如果两个点比给定的链接长度更近，就称为“朋友”，而一个朋友的朋友也是一个朋友(如果A是B和B的朋友，A也是C的朋友)。然后，将其中所有的朋友点集合成一个聚类，最终形成若干簇。其动机是，我通常有很强的聚类点，不同的聚类距离很远。我想在距离计算中允许任意度量(即不一定是欧几里得度量)。我可以从头开始写下来，但我想知道它是否可以使用现有的库或一些基于智能数组的Python轻松地实现。

浏览 3提问于2022-02-16得票数 0

回答已采纳

1回答

将Python机器学习算法显示为HTML网页

javascript、python、html、user-interface

因此，作为任务的一部分，我正在使用聚类算法为NBA选秀提供球员建议。聚类算法是用python编写的，我想以用户界面HTML网页的形式显示结果。可以在HTML网页中显示python输出吗？换句话说，python代码应该在HTML网页的后台运行。只需注意:我不想只是导入matplotlib动画，而是整个算法从Python到HTML网页，这样当用户与界面交互时，python算法必须在网页的后台工作。

浏览 30提问于2020-01-21得票数 0

3回答

谱聚类Scikit学习集群中的打印项

python、machine-learning、scikit-learn

我知道我可以使用以下代码获取K-means集群中特定集群的内容，并使用scikit-learn。 order_centroids = model.cluster_centers_.argsort()[:, ::-1] terms = vectorizer.get_feature_names() for i in range(true_k): print "Cluster %d:" % i, for ind in order_centroids[i, :10]: print ' %s'

浏览 4提问于2015-09-26得票数 3

回答已采纳

1回答

聚类和分类在Python中的结合

python、classification

Python中有一种叫做K-means的聚类方法.经过聚类处理后，我希望基于支持向量机或其他分类方法计算每个聚类的精度。我该怎么做？

浏览 3提问于2018-09-15得票数 0

回答已采纳

2回答

在sklearn中持久化数据

python、machine-learning、data-mining、scikit-learn

我正在使用scikit-learn对文本文档进行聚类。我使用CountVectorizer、TfidfTransformer和MiniBatchKMeans类来帮助我做到这一点。新的文本文档一直被添加到系统中，这意味着我需要使用上面的类来转换文本并预测聚类。我的问题是:我应该如何在磁盘上存储数据？我是否应该简单地处理向量化器、转换器和kmeans对象？我应该只保存数据吗？如果是这样，我如何将其添加回向量器、transformer和kmeans对象？任何帮助都将不胜感激

浏览 2提问于2012-06-21得票数 5

回答已采纳

1回答

哪种聚类算法可以与Word Mover与M. Kusner的论文的距离一起使用？

cluster-analysis、similarity、unsupervised-learning

我是机器学习的新手，现在我对文档聚类(不同长度的短文本)感兴趣，因为它们的语义相似(我只想超越标准的TF/下手方法)。我阅读了的论文，其中解释了单词移动器对单词嵌入的距离。在论文中，他们用它来分类。我现在的问题是-我能用它进行聚类吗？如果是的话，是否有这样的用纸？ P.S.：我基本上对考虑到语义相似性的聚类感兴趣，所以即使是word2vec或doc2vec方法也能完成这一任务--我只是找不到在聚类问题中使用它们的任何论文。

浏览 0提问于2018-04-04得票数 0

回答已采纳

2回答

用python绘制文本聚类中的单词

python、cluster-analysis、unsupervised-learning

我的聚类结果如下图所示。是否有类似于fvid_clusters的库可以生成如下所示的地块？(使用PYTHON)

浏览 2提问于2019-03-21得票数 1

回答已采纳

2回答

如何将机器学习分类方法应用于一维时间序列数据

python、machine-learning、classification

我有IMU数据(加速计、磁力计和陀螺仪)，在不同的练习中(下沉、俯卧撑、仰卧起坐、穿孔)。这些练习是在单个1D时间序列信号中完成的，我想使用机器学习分类方法来识别信号中的不同练习。我不想将信号压缩成0D峰值，并以这种方式构建我的特征，而是保持时域的完整性。下图显示了包含四个练习的加速度计的示例数据。因此，我的问题是，在这样做时，哪种方法最有效？K-means聚类在0D意义上是完美的，那么有1D等价吗？对python (sklearn)的任何资源都将非常感谢！提前感谢！

浏览 2提问于2018-05-25得票数 2

3回答

如何检验无监督聚类模型输出的准确性？

clustering、k-means

我正在试着测试我的非监督K-均值聚类是否能够正确地聚集我的数据。我有一个无监督的K均值聚类模型输出(如下面的第一张照片所示)，然后使用实际的分类对数据进行聚类。 📷 下面的照片是实际分类。我试图用Python测试我的K-均值分类(上面)与实际分类相比有多好。 📷 对于我的K-表示代码，我使用的是一个简单的模型，如下所示： kmeans = KMeans(n_clusters=4, random_state=0).fit(myData) labels = kmeans.labels_ 对我来说，比较无监督的KMeans聚类模型与实际分类的效果最好的方法是什么？

浏览 0提问于2017-03-09得票数 7

回答已采纳

2回答

聚类公司简历(CV)中的python (聚类文本)

python、machine-learning、cluster-analysis

我试图对我们公司的履历(简历)进行分类。总共约有100份简历。这样做的目的是根据他们的简历内容找到类似的人。我已经将docs一词转换为文本文件，并将所有候选文档读入python字典，格式如下： cvdict = { 'name1' : "cv text", 'name2', : 'cv text', ... } 我还删除了大多数标点符号，降低了它，删除了数字等，并删除了长度小于x (4)的单词。我的问题：聚类是正确的方法吗？如果没有，那么哪种机器学习算法将是这个任务的合适的初始关注点。与某些python代码有关的任何

浏览 2提问于2014-03-26得票数 1

回答已采纳

3回答

了解scikit learn KMeans返回的"score“

python、scikit-learn、k-means

我对一组文本文档(大约100个)进行了聚类。我使用TfIdfVectorizer将它们转换为Tfidf向量，并将向量作为输入提供给scikitlearn.cluster.KMeans(n_clusters=2, init='k-means++', max_iter=100, n_init=10)。现在当我 model.fit() print model.score() 在我的向量上，如果所有的文本文档都非常相似，我会得到一个非常小的值，如果文档非常不同，我会得到一个非常大的负值。它实现了查找哪些文档集相似的基本目的，但是有人能帮助我理解这个model.score()值对于拟合

浏览 3提问于2015-09-03得票数 27

1回答

基于情感的文本数据聚类？

python、nlp、sentiment-analysis、multiclass-classification、unsupervised-learning

我从亚马逊上摘除评论，目的是进行情绪分析，将它们分为阳性、阴性和中性。现在我得到的数据将是文本和未标记的。我处理这个问题的方法如下： 1.)使用聚类算法(如DBScan、HDBScan或KMeans )标记数据。集群的数目显然是3。 2.)对标记数据进行Classification算法的训练。现在，我从未对文本数据执行过聚类，但我熟悉聚类的基本知识。所以我的问题是：是我的方法对吗？任何文章/博客/教程，我可以为基于文本的集群遵循，因为我对此有点陌生？

浏览 3提问于2021-12-25得票数 1

6回答

实现半监督(约束)集群的包有哪些？

cluster-analysis、k-means、pybrain、dbscan

我想在半监督(约束)聚类上运行一些实验，特别是使用作为实例级成对约束(必须链接或不能链接约束)提供的背景知识。我想知道有没有好的开源包可以实现半监督聚类？我尝试查看PyBrain、mlpy、scikit和orange，但我找不到任何受约束的聚类算法。特别是，我对约束K-Means或基于约束密度的聚类算法(如C-DBSCAN)感兴趣。最好使用Matlab、Python、Java或C++格式的包，但不限于这些语言。

浏览 2提问于2014-01-21得票数 9

1回答

如何计算聚类量化误差？

python、cluster-analysis、quantization

我想用量化误差来衡量聚类的质量，但是找不到任何关于如何计算这个度量的明确信息。我发现的少数文件/文章如下： "“(不幸的是，这里没有免费的访问权限) 在2011年发布了关于不同类型距离测量的交叉验证(这个问题非常具体，没有给出多少关于计算的内容)。，其中quantization_error函数(在代码的末尾)是用Python实现的。关于第三个链接(这是我迄今为止找到的最好的信息)，我不知道如何解释计算(请参阅下面的片段)： (#注释是我的。问号表示我不清楚的步骤) def quantization_error(self): ""

浏览 4提问于2018-01-10得票数 4

回答已采纳

1回答

查找gps数据中的异常值或异常(时间、纬度、经度、高度)

python-3.x、machine-learning、data-science

我有数据。根据数据(时间、纬度、经度、高度)确定设备在一整周内走的典型路线。在确定了设备经常访问的基线路由或典型区域之后，我们可以开始根据设备在其频繁路由/区域之外传输的情况来确定异常。操作:该进程随后将向系统发送一个“警报”，提示系统在其频繁区域路由之外运行请建议哪种机器学习算法是有用的。我将启动聚类算法。也告诉我哪些python库对使用机器学习算法是有用的。

浏览 83提问于2019-07-04得票数 0

1回答