腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
视频
沙龙
1
回答
给定2D空间中的一组边框,将它们分组为行。
、
、
、
给定一组具有顶点坐标的N包围框: "vertices": [ { "y": 486, "x": 336 }, { "y": 486, "x": 2235 }, { "y": 3393, "x": 2235 }, { "y": 3393, "x": 336 } ] 我想把边框分成
浏览 3
提问于2016-08-10
得票数 2
回答已采纳
1
回答
大数据集的python中的共识聚类
、
、
我在python 中找到了一个非常好的共识聚类实现。 然而,对于具有大样本大小的大数据集,该算法将不起作用,因为它使用维度样本、样本来构建矩阵。 对于大型数据集上的共识聚类,有没有高效的python实现?
浏览 12
提问于2021-03-07
得票数 0
3
回答
如何应用集成聚类方法?
、
、
、
、
我需要使用集成聚类方法,在我的数据集中使用python。我已经通过使用scikit学习库应用了k-均值聚类。我还应用了不同的分类方法,也发现了集成分类方法在科学学习中的应用.现在我感到困惑的是,在scikit中是否存在用于集成聚类的库,或者我如何将集成聚类方法应用于我的数据集?
浏览 0
提问于2018-02-03
得票数 0
1
回答
基于特定关键字创建集群
、
、
、
、
我正在处理原始文本数据。我正在使用聚类将文档中的常见单词组合在一起。我的要求是根据特定的单词列表创建集群,也就是说,我想获得一组通常与用户给定的单词列表一起发现的单词。从视觉上看,集群应该如下所示。通常,集群技术的重点是创建隔离的集群,而我需要有一些重叠的隔离集群。图像显示了预期结果的视图。我尝试过使用k均值聚类、Apriori算法和Python中的PrefixSpan。但我想要的结果没有实现。 如有任何建议,将不胜感激。 📷
浏览 0
提问于2021-03-30
得票数 0
1
回答
如何比较k均值和层次聚类结果
、
、
我使用两种类型的聚类算法,我采用分层聚类,K-均值聚类使用python库。 现在的结果有点不同,那么我如何比较结果和使用哪种算法呢?因为我想为一组未标记的数据写一个结论。 使用多个算法并在它们之间进行比较有什么好处?
浏览 0
提问于2020-12-12
得票数 0
回答已采纳
1
回答
创建包含相似文本的文本聚类
、
、
、
最近,我从事图像聚类工作,找到相似的图像并将它们分组在一起。我使用了python的skimage模块来计算SSIM,然后根据确定的阈值对所有图像进行聚类。 我想对文本做类似的操作。我想创建包含相似文本的自动聚类。例如,cluster-1可以包含代表职业母亲的所有文本,cluster-2可以包含代表人们谈论食物等内容的所有文本。我知道这必须是无监督的学习。我们有没有类似的python模块可以帮助完成这个任务?我还检查了google的tensorflow,看看是否可以从中获得一些东西,但在它的文档中没有找到任何与文本聚类相关的内容。
浏览 1
提问于2018-06-11
得票数 0
1
回答
在Python中实现文档间语义相似度的聚类
、
、
、
我有大约1000个文档(类似段落的文本)。我希望找到文档之间的相似性,以便对文档进行聚类。最后,我想做分层聚类。我想用Python实现。如何处理这件事。
浏览 6
提问于2018-08-09
得票数 0
回答已采纳
2
回答
层次聚类中的阈值
、
、
、
、
我对集群和做一些关于集群tweet的小项目很陌生,我使用了TF,然后使用了层次化聚类。我对为分层聚类设置阈值感到困惑。它的价值应该是什么?如何决定它? 我使用python模块来实现。
浏览 4
提问于2014-04-23
得票数 0
回答已采纳
4
回答
Python KMeans聚类词
、
我感兴趣的是对距离度量为Leveshtein的单词列表执行kmeans聚类。 1)我知道有很多框架,包括具有kmeans实现的scipy和orange。然而,它们都需要某种类型的向量作为数据,这并不适合我。 2)我需要一个好的集群实现。我研究了python-clustering,并意识到它不会a)返回到每个质心的所有距离的总和,b)它没有任何类型的迭代限制或中断来确保聚类的质量。python聚类和daniweb上的聚类算法对我来说并不是很有效。 有没有人能给我找个好地方?谷歌不是我的朋友
浏览 2
提问于2010-03-17
得票数 9
3
回答
python中的谱聚类图
、
、
、
、
我想使用谱聚类在python中对图进行聚类。 谱聚类是一种更通用的聚类技术,它不仅适用于图形,也适用于图像或任何类型的数据,但它被认为是一种特殊的图聚类技术。遗憾的是,我在python网上找不到谱聚类图的例子。 Scikit学习有两种光谱聚类方法:和,它们似乎不是别名。 这两种方法都提到,它们可以用于图表,但没有提供具体的说明。。我有,但他们工作过度,还没有达到目的。 是一个很好的网络来记录这一点。它包括了。 我很想在这方面有个方向。如果有人能帮我解决这个问题,我可以将文档添加到scikit学习中。 备注: 。
浏览 9
提问于2017-09-16
得票数 33
回答已采纳
1
回答
模糊聚类的分离测度
、
、
是否有用于模糊聚类的分离度量,如Sillohete评分?我理解硬聚类算法的逻辑,但不确定模糊。是否有一个Python包,例如scikit-learn?
浏览 0
提问于2021-06-16
得票数 0
回答已采纳
2
回答
用python进行时间序列聚类
、
我有多个不同客户的时间序列数据(大约10k客户,100天)。我想把这些数据聚成5-10组。 但是,我没有关于时间序列聚类的任何提示。K手段对他们有用吗?任何python包都可以处理这些数据吗? 任何帮助都很感激。
浏览 0
提问于2022-02-08
得票数 4
3
回答
Python中的文本聚类
、
、
我需要对一些文本文档进行聚类,并且一直在研究各种选项。看起来LingPipe可以在没有事先转换的情况下聚类纯文本(到向量空间等),但它是我见过的唯一一个明确声称可以在字符串上工作的工具。 有没有可以直接聚类文本的Python工具?如果不是,处理这个问题的最好方法是什么?
浏览 0
提问于2009-11-24
得票数 23
回答已采纳
3
回答
python中基于基因表达矩阵的层次聚类
、
、
、
、
我如何在Python中进行分层聚类(在本例中是针对基因表达数据),以显示基因表达值矩阵和树状图?我的意思是像下面这样的例子: 在项目符号6(图1)之后显示,其中树状图绘制在基因表达矩阵的左侧,其中行已重新排序以反映聚类。 如何在Python中使用numpy/scipy或其他工具执行此操作?另外,用欧几里德距离作为度量,用大约11,000个基因的矩阵来做这件事,在计算上可行吗? 编辑:很多人建议使用聚类包,但我仍然不确定如何绘制上面在Python中链接的图像。例如,我如何使用Matplotlib将树状图覆盖在热图矩阵旁边? 谢谢。
浏览 0
提问于2010-06-05
得票数 3
1
回答
地理定位聚类
、
、
我正试图将点聚到最近的邻居。我有一个包含人口、纬度和经度的数据集。由于聚类工作在距离测量和这里的协调是地理位置,我如何处理这个问题在python?
浏览 11
提问于2022-11-02
得票数 0
1
回答
基于语义相似度的分层聚类算法
、
、
我对整个集群和其他方面都很陌生,所以我有点迷失在编程的最后一步。我正在做一个基于主题语义相似性的项目,该项目使用层次化算法对学生进行聚类。 我所理解的是,我必须收集列表中的所有主题,然后应用像分层聚类这样的聚类技术。 如何用python编写代码,根据主题之间的语义相似性对学生进行聚类?
浏览 5
提问于2022-02-15
得票数 -1
1
回答
聚类和分类在Python中的结合
、
Python中有一种叫做K-means的聚类方法.经过聚类处理后,我希望基于支持向量机或其他分类方法计算每个聚类的精度。 我该怎么做?
浏览 3
提问于2018-09-15
得票数 0
回答已采纳
1
回答
好友聚类算法(Python)
、
、
、
、
我想在Python中实现一个“朋友中的朋友”算法,在这个算法中,对于N维空间中的一组点(在我的例子中,是二维的),如果两个点比给定的链接长度更近,就称为“朋友”,而一个朋友的朋友也是一个朋友(如果A是B和B的朋友,A也是C的朋友)。然后,将其中所有的朋友点集合成一个聚类,最终形成若干簇。其动机是,我通常有很强的聚类点,不同的聚类距离很远。我想在距离计算中允许任意度量(即不一定是欧几里得度量)。 我可以从头开始写下来,但我想知道它是否可以使用现有的库或一些基于智能数组的Python轻松地实现。
浏览 3
提问于2022-02-16
得票数 0
回答已采纳
1
回答
将Python机器学习算法显示为HTML网页
、
、
、
因此,作为任务的一部分,我正在使用聚类算法为NBA选秀提供球员建议。聚类算法是用python编写的,我想以用户界面HTML网页的形式显示结果。可以在HTML网页中显示python输出吗? 换句话说,python代码应该在HTML网页的后台运行。 只需注意:我不想只是导入matplotlib动画,而是整个算法从Python到HTML网页,这样当用户与界面交互时,python算法必须在网页的后台工作。
浏览 30
提问于2020-01-21
得票数 0
1
回答
如何保存集群种子以供进一步评分
、
、
我正在用Python构建一个k-means聚类模型。然而,我不确定如何保存集群质心,以及如何将它们用于未来的评分目的。以后使用该模型时,我总是希望分配相同的集群I。如果有人有一个清晰的代码来展示如何做到这一点,我将不胜感激。 更新: 嗨@HannounYassir,当然,很抱歉我之前应该这样做: 假设我的数据集名称是data_clean,并且所有变量都已预先标准化和清理。 # define the cluster variables cluster_vars=data_clean[['A' , 'B' , 'C']] # Interpret
浏览 2
提问于2017-06-12
得票数 0
2
回答
用python绘制文本聚类中的单词
、
、
我的聚类结果如下图所示。 是否有类似于fvid_clusters的库可以生成如下所示的地块?(使用PYTHON)
浏览 2
提问于2019-03-21
得票数 1
回答已采纳
2
回答
如何将机器学习分类方法应用于一维时间序列数据
、
、
我有IMU数据(加速计、磁力计和陀螺仪),在不同的练习中(下沉、俯卧撑、仰卧起坐、穿孔)。这些练习是在单个1D时间序列信号中完成的,我想使用机器学习分类方法来识别信号中的不同练习。我不想将信号压缩成0D峰值,并以这种方式构建我的特征,而是保持时域的完整性。下图显示了包含四个练习的加速度计的示例数据。因此,我的问题是,在这样做时,哪种方法最有效?K-means聚类在0D意义上是完美的,那么有1D等价吗?对python (sklearn)的任何资源都将非常感谢! 提前感谢!
浏览 2
提问于2018-05-25
得票数 2
6
回答
实现半监督(约束)集群的包有哪些?
、
、
、
我想在半监督(约束)聚类上运行一些实验,特别是使用作为实例级成对约束(必须链接或不能链接约束)提供的背景知识。我想知道有没有好的开源包可以实现半监督聚类?我尝试查看PyBrain、mlpy、scikit和orange,但我找不到任何受约束的聚类算法。特别是,我对约束K-Means或基于约束密度的聚类算法(如C-DBSCAN)感兴趣。最好使用Matlab、Python、Java或C++格式的包,但不限于这些语言。
浏览 2
提问于2014-01-21
得票数 9
1
回答
如何计算聚类量化误差?
、
、
我想用量化误差来衡量聚类的质量,但是找不到任何关于如何计算这个度量的明确信息。 我发现的少数文件/文章如下: "“(不幸的是,这里没有免费的访问权限) 在2011年发布了关于不同类型距离测量的交叉验证(这个问题非常具体,没有给出多少关于计算的内容)。 ,其中quantization_error函数(在代码的末尾)是用Python实现的。 关于第三个链接(这是我迄今为止找到的最好的信息),我不知道如何解释计算(请参阅下面的片段): (#注释是我的。问号表示我不清楚的步骤) def quantization_error(self): ""
浏览 4
提问于2018-01-10
得票数 4
回答已采纳
1
回答
查找gps数据中的异常值或异常(时间、纬度、经度、高度)
、
、
我有数据。根据数据(时间、纬度、经度、高度)确定设备在一整周内走的典型路线。在确定了设备经常访问的基线路由或典型区域之后,我们可以开始根据设备在其频繁路由/区域之外传输的情况来确定异常。 操作:该进程随后将向系统发送一个“警报”,提示系统在其频繁区域路由之外运行 请建议哪种机器学习算法是有用的。我将启动聚类算法。也告诉我哪些python库对使用机器学习算法是有用的。
浏览 83
提问于2019-07-04
得票数 0
1
回答
如何应用nltk对问题进行分类
、
、
、
、
我有一个从在线网站提取的文本文件中的问题列表。我是第一次接触nltk (Python语言),并且经历了( )的初始章节。请任何人帮我把我的主题归类在不同的标题下。我不知道问题的标题。那么,如何创建标题和分类,然后呢?
浏览 2
提问于2015-03-12
得票数 0
1
回答
基于谱算法-Python的网络聚类
、
、
、
我正在使用python来练习谱聚类算法。在构建网络并为每个节点获取集群标签之后,我有以下问题: 如何度量聚类performance?how以确定最佳集群数?如果要添加边缘,如何确定哪个集群最适合新节点?
浏览 1
提问于2021-11-06
得票数 0
3
回答
分段聚类回归
、
、
我想知道是否有可能将数值数据(超过3维)聚成不同的聚类,并对每个聚类进行曲线拟合,以获得比单一模型更高的精度。 既然线性回归是首选的,有什么方法可以根据数据点的线性拟合来聚类吗? 这是因为我需要一个与输入数据匹配的结果,而不关心看不见的数据。我不能硬编码数据和使用查找机制。相反,一个近似的数学函数会更好。 是否有现有的实现?(最好用Python)
浏览 0
提问于2018-06-14
得票数 3
3
回答
sklearn聚类:确定大数据集上最优聚类数的最快方法
、
、
、
、
我使用和python中sklearn的来计算集群,但是在>10.000个样本上,>1000个集群计算silhouette_score的速度非常慢。 是否有更快的方法来确定最优的聚类数? 或者我应该改变聚类算法?如果是,对于>300.000个样本和大量集群的数据集,哪一种算法是最好的(也是最快的)?
浏览 1
提问于2016-12-27
得票数 4
回答已采纳
1
回答
模式识别
、
我的智商是70,我根本不聪明,不知道该怎么做。但!我想要的是。例如,让Python从MySQL读取一个表并找到列的模式!例如,当Y列在'1.56‘左右,colum Z在'756’左右时,列X通常是'foo‘值,例如,它发现所有的’明显‘数据.你们中有些人有没有一个简单的计划让我来做这件事?或者给我参考一些信息,书籍等等?不是一本天才的书! Python是否适合这样做呢?它将包含大约60万行,大约20列.今天的标准游戏电脑.
浏览 0
提问于2010-12-02
得票数 0
1
回答
有哪些方法可以评估聚类的相似性?
、
、
、
假设我有两种方法对同一数据集进行聚类,并希望计算它们输出的相似度。我将不得不计算一些类似于相关性的东西,但集群标签是一个分类变量。我考虑过使用卡方,但当列联表中的多个单元格<5时,不建议使用卡方(当聚类非常相似时,这将经常发生)。另一个线索是使用Fisher的精确测试,但Python scipy实现只适用于2x2的列联式矩阵,我可能会使用更大的矩阵(例如10x10或8x6 )。 有没有以这种方式比较集群的其他既定方法?有没有它们的Python实现?
浏览 32
提问于2020-03-30
得票数 0
1
回答
Java中的图聚类库
、
、
、
我正在搜索一个库(或框架或图形db函数或示例代码),以便将一个无向加权图拆分为集群。 另外的要求是您可以配置生成的集群数量。 我已经看过不同的东西了: JUNG框架:似乎不支持聚类算法的加权边缘。 Neo4J DB:在核心java中提供了一些算法,但不用于集群。 JGraphT:没有聚类算法。 Igraph: Java不可用,只有Python、C和R 有谁知道Java可访问的其他图形聚类算法实现吗? 谢谢!
浏览 3
提问于2015-09-17
得票数 5
回答已采纳
1
回答
PanelOLS :双向聚类?
、
、
在Python/Pandas中,我使用PanelOLS函数。此函数使您能够对标准错误进行聚类。例如: PanelOLS(y=panel.Y, x=panel[['X1', 'X2'], nw_lags=10, time_effects=True, cluster='time') 但是,我也希望通过entity和time对标准错误进行聚类。 是否有办法这样做?如果没有,那么statsmodel中的面板函数如何?我很难找到关于使用状态模型的Panel回归的文档。 UPDATE如果我控制使用newey延迟(nw_lags),这不像cl
浏览 6
提问于2015-08-12
得票数 1
1
回答
如何保持集群映射索引顺序与我的DataFrame索引顺序相同
、
、
、
我正在尝试使用python Sea born包绘制集群图 我希望热图的行顺序与DataFrame索引顺序相同 但图像似乎不是这样的 我的数据具有如下特征: data‘’character‘= 'A','B','B','C','C’ 我使用颜色条来显示字符 如果聚类图的顺序与我的数据帧的顺序相同 在我的颜色栏中有相同的字符 但事实并非如此 如何才能使聚类映射顺序与数据帧索引顺序相同 非常感谢
浏览 2
提问于2018-03-06
得票数 0
1
回答
如何获得k均值簇的权重和方差?
、
、
我试图复制这论文的结果,但是使用python和HMMlearn库来代替matlab。本文介绍了一种利用隐马尔可夫模型( HMM )预测股票价格的方法。 本文详细介绍了用四态5混合高斯分布作为模型.转移概率和初始状态概率是一致的,但发射概率是根据现有股票价格数据集的k均值算法的结果来确定的。 后半部分是我陷入困境的地方,本文建议使用k-均值算法返回的每个聚类的均值、方差和权重作为混合算法每个组分的均值、方差和权重。据我所知,星系团的平均值只是每个质心的中心,但是我不知道你如何获得方差或权重。 给出一个三维数据集X(以[[a, b, c], [d, e, f]...]的形式),并使用k-均值算法,
浏览 0
提问于2016-04-28
得票数 2
回答已采纳
3
回答
基于距离矩阵的词聚类
、
、
、
我的目标是根据单词与文本文档语料库的相似度对单词进行聚类。我已经计算了每对单词之间的Jaccard相似度。换句话说,我有一个可用的稀疏距离矩阵。有没有人能给我介绍一些以距离矩阵作为输入的聚类算法(可能还有它的Python库)?我事先也不知道集群的数量。我只想对这些单词进行聚类,并获得哪些单词聚在一起。
浏览 0
提问于2013-04-27
得票数 24
1
回答
为什么我不能导入AgglomerativeClustering类?
、
、
我想使用从滑雪,但我不能导入它。 >>> from sklearn.cluster import AgglomerativeClustering Traceback (most recent call last): File "<stdin>", line 1, in <module> ImportError: cannot import name AgglomerativeClustering 这条信息没有给出造成这个问题的原因,你能帮上忙吗? Python版本 Python 2.7.6 (default, Jun 22 201
浏览 1
提问于2015-08-26
得票数 0
回答已采纳
1
回答
从人类指定的聚类中学习聚类标准
、
、
、
、
在我的公司,我们每天都有一个数据流,操作员手动将数据聚类成4到10个条目的小组。我想利用机器学习向操作员建议集群,使他们的工作更容易。 我有一个大约700个条目和120个维度的数据集,它已经被聚集到大约200个组中。数据集是分类特征和顺序特征的混合,大致分为两部分。 作为一种有监督的聚类问题,有没有从已知聚类中学习距离度量或规则的方法?我目前没有他们所遵循的规则来对数据进行聚类。了解他们所遵循的一些规则会有多大帮助?有没有其他技术可以让这个问题变得更容易处理? 我正在使用Python和Pandas库来处理数据。 提前感谢!
浏览 1
提问于2017-06-27
得票数 0
1
回答
贝叶斯层次聚类
您知道我们是否可以在具有浮点值的向量上实现贝叶斯层次聚类(python或R)?我在网上搜索过,只找到了一些值为0,1,2的随机矩阵,在相关的论文中没有提到。我也尝试用R实现它,它返回了一个致命的错误,RGui和RGui突然关闭了,我不确定是不是因为浮点值的原因。
浏览 4
提问于2020-01-21
得票数 0
2
回答
即使我不想预测任何东西,我也需要K-means聚类的测试训练拆分吗?
、
、
、
我有一组2000个点,它们基本上是足球协会传球来源的x,y坐标。我想对其运行k-means聚类算法,以便对其进行分类,以获得最常见的10个过程(k=10)。但是,我不想预测未来值的任何点。我只是想使用现有的数据。我还需要把它分成测试训练集吗?我假设只有当我们想要在特定集合上训练模型以计算未来值(?)时,它们才会完成。我对集群(以及整个Python )是个新手,所以如果有任何帮助,我将不胜感激。
浏览 22
提问于2019-04-01
得票数 1
1
回答
从d最近的聚类中心到n个点集的k
、
、
我有一组'n‘数据点和'd’可能的聚类中心,这些都是先验已知的。我需要从这些'd‘聚类中心中选择“最佳”'k’(值'k‘也已知),以便在这些'k’聚类中心上对'n‘数据点进行聚类,从而得到最小的总累积距离。 此外,与每个k选择的集群相关联的数据点的数量应该是软平衡的,但这不是硬要求。 我认为的一个近似解是首先对数据点进行盲目聚类(例如,高斯混合聚类和聚类数= k),然后选择k个已知的聚类中心,使它们与GM聚类经验发现的聚类中心的累积距离最小化。或者,当然,总是有蛮力的方法,尝试所有可能的组合,把k从d中心取出来,然后计算集合的累积距离。
浏览 4
提问于2022-08-06
得票数 0
1
回答
如何利用Gap统计量找到层次聚类中的最优聚类数?
、
、
、
、
我想运行具有300个特性和1500个观察的集群文档的单一链接的分层聚类。我想找出这个问题的最佳簇数。 下面的链接使用下面的代码来查找具有最大间隙的集群数量。 # Compute gap statistic set.seed(123) iris.scaled <- scale(iris[, -5]) gap_stat <- clusGap(iris.scaled, FUN = hcut, K.max = 10, B = 50) # Plot gap statistic fviz_gap_stat(gap_stat) 但是在链接中没有明确的定义。如何将单一链接分层聚类指定为
浏览 1
提问于2016-12-13
得票数 2
回答已采纳
1
回答
集群验证:如何验证和度量预定义的集群
、
、
我对python很陌生,我正在开发一个消费数据集,在这里我们使用LCA、K-Means、DBSCAN和谱聚类来计算集群。在所有这些方法中,簇的数目是不同的(在K-均值中为EG-5簇,而LCA中为7),自变量可能是相同的,也可能不是相同的(例如- 12个自变量在K-均值中,10个在LCA中)。现在我要用聚类内聚、聚类分离、熵、纯度、Jaccard Coeff、RAND指数等对集群进行验证。 这些措施是否适用于集群验证? 在python中有函数/库可以一次计算这些函数/库吗? 如果没有可用的函数/库,如何在python中计算这些值。 希望我是清楚的,并感谢您的帮助,提前。
浏览 8
提问于2021-02-23
得票数 0
3
回答
python数据挖掘
、
、
我对数据挖掘并不感兴趣,但我需要一些关于聚类的想法。让我先描述一下我的问题。 我有大约100份包含用户评论的数据表。我正在尝试为实例寻找描述质量的单词。有人可以说这是惊人的质量,另一个人可以说非常好的质量,现在我必须对描述这些相似句子的文档进行聚类,并获得这些句子的频率。在这里应用什么概念? 我想我必须指定一些停用的单词和同义词。我对这个概念不是很熟悉。 有人能给我一些详细的链接或解释吗?使用什么工具?我基本上是一个python程序员,所以任何python模块都会很感激。 谢谢
浏览 2
提问于2011-04-04
得票数 3
回答已采纳
1
回答
如何在python中对“预先计算”的数据运行predict()以进行聚类
、
我有自己的预先计算的数据,用于在python中运行AP或Kmeans。但是,当我想对数据运行train()和test()以查看聚类在类或集群上是否具有良好的准确性时,Python告诉我predict()对“预先计算”的数据不可用。 有没有其他方法可以在python中对集群数据进行训练/测试?
浏览 3
提问于2019-02-23
得票数 2
2
回答
基于相似性度量的图像聚类
、
、
、
、
我正在尝试使用科学知识-学习和比辛对一组图像进行聚类-不到100。 最终的目标是根据计算出的相似性度量- CW-SSIM将图像放入几个桶(簇)中。 这个任务似乎很琐碎,但我无法找到最好的方法来处理基于相似性的集群,在scikit中学习。K-表示聚类看起来是个不错的选择,但它不接受任何“比较函数”或自定义距离函数。 那么如何处理科学学习中基于比较(基于相似性)的聚类呢? 我在考虑“比较矩阵”,根据计算出的CW-SSIM相似值,每个单元格有1(相似)或0(不相似)。该矩阵将用于拟合K-均值聚类。但是接下来我们将面临可伸缩性问题,因为这样的矩阵的维数将等于图像的数量.未来可能会增长到1+百万。 如果
浏览 0
提问于2016-01-10
得票数 8
4
回答
在Python中对大约100,000个短字符串进行聚类
、
、
、
我想通过q-gram距离或简单的"bag距离“或Python中的Levenshtein距离来聚类大约100,000个短字符串。我计划填写一个距离矩阵(100,000选择2个比较),然后使用进行分层聚类。但我还没上路就遇到了一些记忆问题。例如,距离矩阵对于numpy来说太大了。 aa = numpy.zeros((100000, 100000)) ValueError: array is too big. 这看起来是合理的做法吗?或者,在这个任务中,我注定会出现内存问题?谢谢你的帮助。
浏览 8
提问于2010-11-22
得票数 15
1
回答
从没有标签或目标的文本数据中推断
、
、
我有一个用例,在这个用例中,审批者在批准某些贷款时输入了文本数据。 对于使用NLP批准的理由,我必须作出一些推论。我该怎么做呢? 这是一种非英语语言。文本聚类有帮助吗??是否可以使用python库对非英语语言的文本进行聚类?
浏览 0
提问于2020-08-19
得票数 0
10
回答
什么是高内聚力,以及如何使用它/制作它?
我正在学习计算机编程,在几个地方我偶然发现了内聚的概念,我知道对于一个软件来说,具有“高内聚”是可取的,但它是什么意思?我是一名Java,C和Python程序员,从C++入门这本书中学习C++,书中提到了内聚力,但没有把它放在索引中,你能给我一些关于这个主题的链接吗?我没有发现维基百科关于计算机科学凝聚力的页面有什么信息,因为它只是说这是一个定性的衡量标准,并没有给出真正的代码示例。
浏览 1
提问于2012-05-31
得票数 86
回答已采纳
1
回答
在Apache Pig上使用Numpy和SciPy
、
、
、
我想在Apache Pig中编写UDF。我将使用Python UDF。我的问题是,我有大量的数据要分析,需要像NumPy和SciPy这样的软件包。买这个,他们没有Jython支持,我不能把他们和Pig一起使用。 我们有替代品吗?
浏览 0
提问于2012-08-30
得票数 1
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python之K均值聚类
聚类模型之Python调参
Python机器学习sklearn模块-聚类
Python实现K-means聚类算法
Python 谱聚类算法从零开始
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券