python聚类_python 聚类_聚类 python - 腾讯云开发者社区

、、、

给定一组具有顶点坐标的N包围框： "vertices": [ { "y": 486, "x": 336 }, { "y": 486, "x": 2235 }, { "y": 3393, "x": 2235 }, { "y": 3393, "x": 336 } ] 我想把边框分成

浏览 3提问于2016-08-10得票数 2

回答已采纳

1回答

大数据集的python中的共识聚类

、、

我在python 中找到了一个非常好的共识聚类实现。然而，对于具有大样本大小的大数据集，该算法将不起作用，因为它使用维度样本、样本来构建矩阵。对于大型数据集上的共识聚类，有没有高效的python实现？

浏览 12提问于2021-03-07得票数 0

3回答

如何应用集成聚类方法？

、、、、

我需要使用集成聚类方法，在我的数据集中使用python。我已经通过使用scikit学习库应用了k-均值聚类。我还应用了不同的分类方法，也发现了集成分类方法在科学学习中的应用.现在我感到困惑的是，在scikit中是否存在用于集成聚类的库，或者我如何将集成聚类方法应用于我的数据集？

浏览 0提问于2018-02-03得票数 0

1回答

我正在处理原始文本数据。我正在使用聚类将文档中的常见单词组合在一起。我的要求是根据特定的单词列表创建集群，也就是说，我想获得一组通常与用户给定的单词列表一起发现的单词。从视觉上看，集群应该如下所示。通常，集群技术的重点是创建隔离的集群，而我需要有一些重叠的隔离集群。图像显示了预期结果的视图。我尝试过使用k均值聚类、Apriori算法和Python中的PrefixSpan。但我想要的结果没有实现。如有任何建议，将不胜感激。 📷

浏览 0提问于2021-03-30得票数 0

1回答

如何比较k均值和层次聚类结果

、、

我使用两种类型的聚类算法，我采用分层聚类，K-均值聚类使用python库。现在的结果有点不同，那么我如何比较结果和使用哪种算法呢？因为我想为一组未标记的数据写一个结论。使用多个算法并在它们之间进行比较有什么好处？

浏览 0提问于2020-12-12得票数 0

回答已采纳

1回答

创建包含相似文本的文本聚类

、、、

最近，我从事图像聚类工作，找到相似的图像并将它们分组在一起。我使用了python的skimage模块来计算SSIM，然后根据确定的阈值对所有图像进行聚类。我想对文本做类似的操作。我想创建包含相似文本的自动聚类。例如，cluster-1可以包含代表职业母亲的所有文本，cluster-2可以包含代表人们谈论食物等内容的所有文本。我知道这必须是无监督的学习。我们有没有类似的python模块可以帮助完成这个任务？我还检查了google的tensorflow，看看是否可以从中获得一些东西，但在它的文档中没有找到任何与文本聚类相关的内容。

浏览 1提问于2018-06-11得票数 0

1回答

在Python中实现文档间语义相似度的聚类

、、、

我有大约1000个文档(类似段落的文本)。我希望找到文档之间的相似性，以便对文档进行聚类。最后，我想做分层聚类。我想用Python实现。如何处理这件事。

浏览 6提问于2018-08-09得票数 0

回答已采纳

2回答

层次聚类中的阈值

、、、、

我对集群和做一些关于集群tweet的小项目很陌生，我使用了TF，然后使用了层次化聚类。我对为分层聚类设置阈值感到困惑。它的价值应该是什么?如何决定它？我使用python模块来实现。

浏览 4提问于2014-04-23得票数 0

回答已采纳

4回答

Python KMeans聚类词

、

我感兴趣的是对距离度量为Leveshtein的单词列表执行kmeans聚类。 1)我知道有很多框架，包括具有kmeans实现的scipy和orange。然而，它们都需要某种类型的向量作为数据，这并不适合我。 2)我需要一个好的集群实现。我研究了python-clustering，并意识到它不会a)返回到每个质心的所有距离的总和，b)它没有任何类型的迭代限制或中断来确保聚类的质量。python聚类和daniweb上的聚类算法对我来说并不是很有效。有没有人能给我找个好地方？谷歌不是我的朋友

浏览 2提问于2010-03-17得票数 9

3回答

python中的谱聚类图

、、、、

我想使用谱聚类在python中对图进行聚类。谱聚类是一种更通用的聚类技术，它不仅适用于图形，也适用于图像或任何类型的数据，但它被认为是一种特殊的图聚类技术。遗憾的是，我在python网上找不到谱聚类图的例子。 Scikit学习有两种光谱聚类方法：和，它们似乎不是别名。这两种方法都提到，它们可以用于图表，但没有提供具体的说明。。我有，但他们工作过度，还没有达到目的。是一个很好的网络来记录这一点。它包括了。我很想在这方面有个方向。如果有人能帮我解决这个问题，我可以将文档添加到scikit学习中。备注：。

浏览 9提问于2017-09-16得票数 33

回答已采纳

1回答

模糊聚类的分离测度

、、

是否有用于模糊聚类的分离度量，如Sillohete评分？我理解硬聚类算法的逻辑，但不确定模糊。是否有一个Python包，例如scikit-learn？

浏览 0提问于2021-06-16得票数 0

回答已采纳

2回答

用python进行时间序列聚类

、

我有多个不同客户的时间序列数据(大约10k客户，100天)。我想把这些数据聚成5-10组。但是，我没有关于时间序列聚类的任何提示。K手段对他们有用吗？任何python包都可以处理这些数据吗？任何帮助都很感激。

浏览 0提问于2022-02-08得票数 4

3回答

Python中的文本聚类

、、

我需要对一些文本文档进行聚类，并且一直在研究各种选项。看起来LingPipe可以在没有事先转换的情况下聚类纯文本(到向量空间等)，但它是我见过的唯一一个明确声称可以在字符串上工作的工具。有没有可以直接聚类文本的Python工具？如果不是，处理这个问题的最好方法是什么？

浏览 0提问于2009-11-24得票数 23

回答已采纳

3回答

python中基于基因表达矩阵的层次聚类

、、、、

我如何在Python中进行分层聚类(在本例中是针对基因表达数据)，以显示基因表达值矩阵和树状图？我的意思是像下面这样的例子：在项目符号6(图1)之后显示，其中树状图绘制在基因表达矩阵的左侧，其中行已重新排序以反映聚类。如何在Python中使用numpy/scipy或其他工具执行此操作？另外，用欧几里德距离作为度量，用大约11,000个基因的矩阵来做这件事，在计算上可行吗？编辑:很多人建议使用聚类包，但我仍然不确定如何绘制上面在Python中链接的图像。例如，我如何使用Matplotlib将树状图覆盖在热图矩阵旁边？谢谢。

浏览 0提问于2010-06-05得票数 3

1回答

地理定位聚类

、、

我正试图将点聚到最近的邻居。我有一个包含人口、纬度和经度的数据集。由于聚类工作在距离测量和这里的协调是地理位置，我如何处理这个问题在python？

浏览 11提问于2022-11-02得票数 0

1回答

基于语义相似度的分层聚类算法

、、

我对整个集群和其他方面都很陌生，所以我有点迷失在编程的最后一步。我正在做一个基于主题语义相似性的项目，该项目使用层次化算法对学生进行聚类。我所理解的是，我必须收集列表中的所有主题，然后应用像分层聚类这样的聚类技术。如何用python编写代码，根据主题之间的语义相似性对学生进行聚类？

浏览 5提问于2022-02-15得票数 -1

1回答

聚类和分类在Python中的结合

、

Python中有一种叫做K-means的聚类方法.经过聚类处理后，我希望基于支持向量机或其他分类方法计算每个聚类的精度。我该怎么做？

浏览 3提问于2018-09-15得票数 0

回答已采纳

1回答

好友聚类算法(Python)

、、、、

我想在Python中实现一个“朋友中的朋友”算法，在这个算法中，对于N维空间中的一组点(在我的例子中，是二维的)，如果两个点比给定的链接长度更近，就称为“朋友”，而一个朋友的朋友也是一个朋友(如果A是B和B的朋友，A也是C的朋友)。然后，将其中所有的朋友点集合成一个聚类，最终形成若干簇。其动机是，我通常有很强的聚类点，不同的聚类距离很远。我想在距离计算中允许任意度量(即不一定是欧几里得度量)。我可以从头开始写下来，但我想知道它是否可以使用现有的库或一些基于智能数组的Python轻松地实现。

浏览 3提问于2022-02-16得票数 0

回答已采纳

1回答

将Python机器学习算法显示为HTML网页

、、、

因此，作为任务的一部分，我正在使用聚类算法为NBA选秀提供球员建议。聚类算法是用python编写的，我想以用户界面HTML网页的形式显示结果。可以在HTML网页中显示python输出吗？换句话说，python代码应该在HTML网页的后台运行。只需注意:我不想只是导入matplotlib动画，而是整个算法从Python到HTML网页，这样当用户与界面交互时，python算法必须在网页的后台工作。

浏览 30提问于2020-01-21得票数 0

1回答

如何保存集群种子以供进一步评分

、、

我正在用Python构建一个k-means聚类模型。然而，我不确定如何保存集群质心，以及如何将它们用于未来的评分目的。以后使用该模型时，我总是希望分配相同的集群I。如果有人有一个清晰的代码来展示如何做到这一点，我将不胜感激。更新：嗨@HannounYassir，当然，很抱歉我之前应该这样做：假设我的数据集名称是data_clean，并且所有变量都已预先标准化和清理。 # define the cluster variables cluster_vars=data_clean[['A' , 'B' , 'C']] # Interpret

浏览 2提问于2017-06-12得票数 0

2回答

用python绘制文本聚类中的单词

、、

我的聚类结果如下图所示。是否有类似于fvid_clusters的库可以生成如下所示的地块？(使用PYTHON)

浏览 2提问于2019-03-21得票数 1

回答已采纳

2回答

如何将机器学习分类方法应用于一维时间序列数据

、、

我有IMU数据(加速计、磁力计和陀螺仪)，在不同的练习中(下沉、俯卧撑、仰卧起坐、穿孔)。这些练习是在单个1D时间序列信号中完成的，我想使用机器学习分类方法来识别信号中的不同练习。我不想将信号压缩成0D峰值，并以这种方式构建我的特征，而是保持时域的完整性。下图显示了包含四个练习的加速度计的示例数据。因此，我的问题是，在这样做时，哪种方法最有效？K-means聚类在0D意义上是完美的，那么有1D等价吗？对python (sklearn)的任何资源都将非常感谢！提前感谢！

浏览 2提问于2018-05-25得票数 2

6回答

实现半监督(约束)集群的包有哪些？

、、、

我想在半监督(约束)聚类上运行一些实验，特别是使用作为实例级成对约束(必须链接或不能链接约束)提供的背景知识。我想知道有没有好的开源包可以实现半监督聚类？我尝试查看PyBrain、mlpy、scikit和orange，但我找不到任何受约束的聚类算法。特别是，我对约束K-Means或基于约束密度的聚类算法(如C-DBSCAN)感兴趣。最好使用Matlab、Python、Java或C++格式的包，但不限于这些语言。

浏览 2提问于2014-01-21得票数 9

1回答

如何计算聚类量化误差？

、、

我想用量化误差来衡量聚类的质量，但是找不到任何关于如何计算这个度量的明确信息。我发现的少数文件/文章如下： "“(不幸的是，这里没有免费的访问权限) 在2011年发布了关于不同类型距离测量的交叉验证(这个问题非常具体，没有给出多少关于计算的内容)。，其中quantization_error函数(在代码的末尾)是用Python实现的。关于第三个链接(这是我迄今为止找到的最好的信息)，我不知道如何解释计算(请参阅下面的片段)： (#注释是我的。问号表示我不清楚的步骤) def quantization_error(self): ""

浏览 4提问于2018-01-10得票数 4

回答已采纳

1回答

查找gps数据中的异常值或异常(时间、纬度、经度、高度)

、、

我有数据。根据数据(时间、纬度、经度、高度)确定设备在一整周内走的典型路线。在确定了设备经常访问的基线路由或典型区域之后，我们可以开始根据设备在其频繁路由/区域之外传输的情况来确定异常。操作:该进程随后将向系统发送一个“警报”，提示系统在其频繁区域路由之外运行请建议哪种机器学习算法是有用的。我将启动聚类算法。也告诉我哪些python库对使用机器学习算法是有用的。

浏览 83提问于2019-07-04得票数 0

1回答

如何应用nltk对问题进行分类

、、、、

我有一个从在线网站提取的文本文件中的问题列表。我是第一次接触nltk (Python语言)，并且经历了( )的初始章节。请任何人帮我把我的主题归类在不同的标题下。我不知道问题的标题。那么，如何创建标题和分类，然后呢？

浏览 2提问于2015-03-12得票数 0

1回答

基于谱算法-Python的网络聚类

、、、

我正在使用python来练习谱聚类算法。在构建网络并为每个节点获取集群标签之后，我有以下问题：如何度量聚类performance?how以确定最佳集群数?如果要添加边缘，如何确定哪个集群最适合新节点？

浏览 1提问于2021-11-06得票数 0

3回答

分段聚类回归

、、

我想知道是否有可能将数值数据(超过3维)聚成不同的聚类，并对每个聚类进行曲线拟合，以获得比单一模型更高的精度。既然线性回归是首选的，有什么方法可以根据数据点的线性拟合来聚类吗？这是因为我需要一个与输入数据匹配的结果，而不关心看不见的数据。我不能硬编码数据和使用查找机制。相反，一个近似的数学函数会更好。是否有现有的实现？(最好用Python)

浏览 0提问于2018-06-14得票数 3

3回答

sklearn聚类:确定大数据集上最优聚类数的最快方法

、、、、

我使用和python中sklearn的来计算集群，但是在>10.000个样本上，>1000个集群计算silhouette_score的速度非常慢。是否有更快的方法来确定最优的聚类数？或者我应该改变聚类算法？如果是，对于>300.000个样本和大量集群的数据集，哪一种算法是最好的(也是最快的)？

浏览 1提问于2016-12-27得票数 4

回答已采纳

1回答

模式识别

、

我的智商是70，我根本不聪明，不知道该怎么做。但!我想要的是。例如，让Python从MySQL读取一个表并找到列的模式！例如，当Y列在'1.56‘左右，colum Z在'756’左右时，列X通常是'foo‘值，例如，它发现所有的’明显‘数据.你们中有些人有没有一个简单的计划让我来做这件事？或者给我参考一些信息，书籍等等？不是一本天才的书！ Python是否适合这样做呢？它将包含大约60万行，大约20列.今天的标准游戏电脑.

浏览 0提问于2010-12-02得票数 0

1回答

有哪些方法可以评估聚类的相似性？

、、、

假设我有两种方法对同一数据集进行聚类，并希望计算它们输出的相似度。我将不得不计算一些类似于相关性的东西，但集群标签是一个分类变量。我考虑过使用卡方，但当列联表中的多个单元格<5时，不建议使用卡方(当聚类非常相似时，这将经常发生)。另一个线索是使用Fisher的精确测试，但Python scipy实现只适用于2x2的列联式矩阵，我可能会使用更大的矩阵(例如10x10或8x6 )。有没有以这种方式比较集群的其他既定方法？有没有它们的Python实现？

浏览 32提问于2020-03-30得票数 0

1回答

Java中的图聚类库

、、、

我正在搜索一个库(或框架或图形db函数或示例代码)，以便将一个无向加权图拆分为集群。另外的要求是您可以配置生成的集群数量。我已经看过不同的东西了： JUNG框架:似乎不支持聚类算法的加权边缘。 Neo4J DB:在核心java中提供了一些算法，但不用于集群。 JGraphT:没有聚类算法。 Igraph: Java不可用，只有Python、C和R 有谁知道Java可访问的其他图形聚类算法实现吗？谢谢!

浏览 3提问于2015-09-17得票数 5

回答已采纳

1回答

PanelOLS :双向聚类？

、、

在Python/Pandas中，我使用PanelOLS函数。此函数使您能够对标准错误进行聚类。例如： PanelOLS(y=panel.Y, x=panel[['X1', 'X2'], nw_lags=10, time_effects=True, cluster='time') 但是，我也希望通过entity和time对标准错误进行聚类。是否有办法这样做？如果没有，那么statsmodel中的面板函数如何？我很难找到关于使用状态模型的Panel回归的文档。 UPDATE如果我控制使用newey延迟(nw_lags)，这不像cl

浏览 6提问于2015-08-12得票数 1

1回答

如何保持集群映射索引顺序与我的DataFrame索引顺序相同

、、、

我正在尝试使用python Sea born包绘制集群图我希望热图的行顺序与DataFrame索引顺序相同但图像似乎不是这样的我的数据具有如下特征： data‘’character‘= 'A'，'B'，'B'，'C'，'C’ 我使用颜色条来显示字符如果聚类图的顺序与我的数据帧的顺序相同在我的颜色栏中有相同的字符但事实并非如此如何才能使聚类映射顺序与数据帧索引顺序相同非常感谢

浏览 2提问于2018-03-06得票数 0

1回答

如何获得k均值簇的权重和方差？

、、

我试图复制这论文的结果，但是使用python和HMMlearn库来代替matlab。本文介绍了一种利用隐马尔可夫模型( HMM )预测股票价格的方法。本文详细介绍了用四态5混合高斯分布作为模型.转移概率和初始状态概率是一致的，但发射概率是根据现有股票价格数据集的k均值算法的结果来确定的。后半部分是我陷入困境的地方，本文建议使用k-均值算法返回的每个聚类的均值、方差和权重作为混合算法每个组分的均值、方差和权重。据我所知，星系团的平均值只是每个质心的中心，但是我不知道你如何获得方差或权重。给出一个三维数据集X(以[[a, b, c], [d, e, f]...]的形式)，并使用k-均值算法，

浏览 0提问于2016-04-28得票数 2

回答已采纳

3回答

基于距离矩阵的词聚类

、、、

我的目标是根据单词与文本文档语料库的相似度对单词进行聚类。我已经计算了每对单词之间的Jaccard相似度。换句话说，我有一个可用的稀疏距离矩阵。有没有人能给我介绍一些以距离矩阵作为输入的聚类算法(可能还有它的Python库)？我事先也不知道集群的数量。我只想对这些单词进行聚类，并获得哪些单词聚在一起。

浏览 0提问于2013-04-27得票数 24

1回答

为什么我不能导入AgglomerativeClustering类？

、、

我想使用从滑雪，但我不能导入它。 >>> from sklearn.cluster import AgglomerativeClustering Traceback (most recent call last): File "<stdin>", line 1, in <module> ImportError: cannot import name AgglomerativeClustering 这条信息没有给出造成这个问题的原因，你能帮上忙吗？ Python版本 Python 2.7.6 (default, Jun 22 201

浏览 1提问于2015-08-26得票数 0

回答已采纳

1回答

从人类指定的聚类中学习聚类标准

、、、、

在我的公司，我们每天都有一个数据流，操作员手动将数据聚类成4到10个条目的小组。我想利用机器学习向操作员建议集群，使他们的工作更容易。我有一个大约700个条目和120个维度的数据集，它已经被聚集到大约200个组中。数据集是分类特征和顺序特征的混合，大致分为两部分。作为一种有监督的聚类问题，有没有从已知聚类中学习距离度量或规则的方法？我目前没有他们所遵循的规则来对数据进行聚类。了解他们所遵循的一些规则会有多大帮助？有没有其他技术可以让这个问题变得更容易处理？我正在使用Python和Pandas库来处理数据。提前感谢！

浏览 1提问于2017-06-27得票数 0

1回答

贝叶斯层次聚类

您知道我们是否可以在具有浮点值的向量上实现贝叶斯层次聚类(python或R)？我在网上搜索过，只找到了一些值为0,1,2的随机矩阵，在相关的论文中没有提到。我也尝试用R实现它，它返回了一个致命的错误，RGui和RGui突然关闭了，我不确定是不是因为浮点值的原因。

浏览 4提问于2020-01-21得票数 0

2回答

即使我不想预测任何东西，我也需要K-means聚类的测试训练拆分吗？

、、、

我有一组2000个点，它们基本上是足球协会传球来源的x，y坐标。我想对其运行k-means聚类算法，以便对其进行分类，以获得最常见的10个过程(k=10)。但是，我不想预测未来值的任何点。我只是想使用现有的数据。我还需要把它分成测试训练集吗？我假设只有当我们想要在特定集合上训练模型以计算未来值(?)时，它们才会完成。我对集群(以及整个Python )是个新手，所以如果有任何帮助，我将不胜感激。

浏览 22提问于2019-04-01得票数 1

1回答

从d最近的聚类中心到n个点集的k

、、

我有一组'n‘数据点和'd’可能的聚类中心，这些都是先验已知的。我需要从这些'd‘聚类中心中选择“最佳”'k’(值'k‘也已知)，以便在这些'k’聚类中心上对'n‘数据点进行聚类，从而得到最小的总累积距离。此外，与每个k选择的集群相关联的数据点的数量应该是软平衡的，但这不是硬要求。我认为的一个近似解是首先对数据点进行盲目聚类(例如，高斯混合聚类和聚类数= k)，然后选择k个已知的聚类中心，使它们与GM聚类经验发现的聚类中心的累积距离最小化。或者，当然，总是有蛮力的方法，尝试所有可能的组合，把k从d中心取出来，然后计算集合的累积距离。

浏览 4提问于2022-08-06得票数 0

1回答

如何利用Gap统计量找到层次聚类中的最优聚类数？

、、、、

我想运行具有300个特性和1500个观察的集群文档的单一链接的分层聚类。我想找出这个问题的最佳簇数。下面的链接使用下面的代码来查找具有最大间隙的集群数量。 # Compute gap statistic set.seed(123) iris.scaled <- scale(iris[, -5]) gap_stat <- clusGap(iris.scaled, FUN = hcut, K.max = 10, B = 50) # Plot gap statistic fviz_gap_stat(gap_stat) 但是在链接中没有明确的定义。如何将单一链接分层聚类指定为

浏览 1提问于2016-12-13得票数 2

回答已采纳

1回答

集群验证:如何验证和度量预定义的集群

、、

我对python很陌生，我正在开发一个消费数据集，在这里我们使用LCA、K-Means、DBSCAN和谱聚类来计算集群。在所有这些方法中，簇的数目是不同的(在K-均值中为EG-5簇，而LCA中为7)，自变量可能是相同的，也可能不是相同的(例如- 12个自变量在K-均值中，10个在LCA中)。现在我要用聚类内聚、聚类分离、熵、纯度、Jaccard Coeff、RAND指数等对集群进行验证。这些措施是否适用于集群验证？在python中有函数/库可以一次计算这些函数/库吗？如果没有可用的函数/库，如何在python中计算这些值。希望我是清楚的，并感谢您的帮助，提前。

浏览 8提问于2021-02-23得票数 0

3回答

python数据挖掘

、、

我对数据挖掘并不感兴趣，但我需要一些关于聚类的想法。让我先描述一下我的问题。我有大约100份包含用户评论的数据表。我正在尝试为实例寻找描述质量的单词。有人可以说这是惊人的质量，另一个人可以说非常好的质量，现在我必须对描述这些相似句子的文档进行聚类，并获得这些句子的频率。在这里应用什么概念？我想我必须指定一些停用的单词和同义词。我对这个概念不是很熟悉。有人能给我一些详细的链接或解释吗？使用什么工具？我基本上是一个python程序员，所以任何python模块都会很感激。谢谢

浏览 2提问于2011-04-04得票数 3

回答已采纳

1回答

如何在python中对“预先计算”的数据运行predict()以进行聚类

、

我有自己的预先计算的数据，用于在python中运行AP或Kmeans。但是，当我想对数据运行train()和test()以查看聚类在类或集群上是否具有良好的准确性时，Python告诉我predict()对“预先计算”的数据不可用。有没有其他方法可以在python中对集群数据进行训练/测试？

浏览 3提问于2019-02-23得票数 2

2回答

基于相似性度量的图像聚类

、、、、

我正在尝试使用科学知识-学习和比辛对一组图像进行聚类-不到100。最终的目标是根据计算出的相似性度量- CW-SSIM将图像放入几个桶(簇)中。这个任务似乎很琐碎，但我无法找到最好的方法来处理基于相似性的集群，在scikit中学习。K-表示聚类看起来是个不错的选择，但它不接受任何“比较函数”或自定义距离函数。那么如何处理科学学习中基于比较(基于相似性)的聚类呢？我在考虑“比较矩阵”，根据计算出的CW-SSIM相似值，每个单元格有1(相似)或0(不相似)。该矩阵将用于拟合K-均值聚类。但是接下来我们将面临可伸缩性问题，因为这样的矩阵的维数将等于图像的数量.未来可能会增长到1+百万。如果

浏览 0提问于2016-01-10得票数 8

4回答

在Python中对大约100,000个短字符串进行聚类

、、、

我想通过q-gram距离或简单的"bag距离“或Python中的Levenshtein距离来聚类大约100,000个短字符串。我计划填写一个距离矩阵(100,000选择2个比较)，然后使用进行分层聚类。但我还没上路就遇到了一些记忆问题。例如，距离矩阵对于numpy来说太大了。 aa = numpy.zeros((100000, 100000)) ValueError: array is too big. 这看起来是合理的做法吗？或者，在这个任务中，我注定会出现内存问题？谢谢你的帮助。

浏览 8提问于2010-11-22得票数 15

1回答

从没有标签或目标的文本数据中推断

、、

我有一个用例，在这个用例中，审批者在批准某些贷款时输入了文本数据。对于使用NLP批准的理由，我必须作出一些推论。我该怎么做呢？这是一种非英语语言。文本聚类有帮助吗？？是否可以使用python库对非英语语言的文本进行聚类？

浏览 0提问于2020-08-19得票数 0

10回答

什么是高内聚力，以及如何使用它/制作它？

我正在学习计算机编程，在几个地方我偶然发现了内聚的概念，我知道对于一个软件来说，具有“高内聚”是可取的，但它是什么意思？我是一名Java，C和Python程序员，从C++入门这本书中学习C++，书中提到了内聚力，但没有把它放在索引中，你能给我一些关于这个主题的链接吗？我没有发现维基百科关于计算机科学凝聚力的页面有什么信息，因为它只是说这是一个定性的衡量标准，并没有给出真正的代码示例。

浏览 1提问于2012-05-31得票数 86

回答已采纳

1回答