腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
视频
沙龙
3
回答
如何应用集成聚类方法?
、
、
、
、
我需要使用集成聚类方法,在我的数据集中使用python。我已经通过使用scikit学习库应用了k-均值聚类。我还应用了不同的分类方法,也发现了集成分类方法在科学学习中的应用.现在我感到困惑的是,在scikit中是否存在用于集成聚类的库,或者我如何将集成聚类方法应用于我的数据集?
浏览 0
提问于2018-02-03
得票数 0
1
回答
聚类分类器与聚类策略
、
、
我正在研究mahout中的K-means算法,在调试时,我注意到在创建第一个集群时,它执行以下代码: ClusteringPolicy policy = new KMeansClusteringPolicy(convergenceDelta); ClusterClassifier prior = new ClusterClassifier(clusters, policy); prior.writeToSeqFiles(priorClustersPath); 我在读这些课程的描述,但我不清楚. 我想知道这些聚类分类器和策略的含义是什么?它与层次聚类、质心聚类、分布聚类等有关吗? 因为我不知道
浏览 1
提问于2014-03-25
得票数 0
回答已采纳
1
回答
WEKA如何评估星系团?
、
、
、
嗨,在链接中找到了这个解释: 使用培训集(默认)。生成聚类后的Weka 将训练实例分类为按 集群表示并计算实例的百分比。 在每个星系团中坠落。 在所提供的测试集或百分比split中可以评估 如果聚类表示是概率的(例如,对于EM),则对单独的测试数据进行聚类。 类到集群评估。在这种模式下,Weka首先会忽略 类属性并生成集群。然后在 它根据每个集群中类属性的大多数值将类分配给集群的测试阶段。在此基础上计算分类误差,并给出相应的混淆矩阵。一个例子 对于k-均值,如下所示。 但是,我不清楚WEKA是如何对集群中的一个新实例进行分类的,以及它如何度量是否应该将该实例分类到该集群中。
浏览 0
提问于2018-11-29
得票数 1
2
回答
机器学习中的无监督分类
、
、
聚类(例如:K-均值,EM算法等)是利用数据点之间的距离度量,在数据集中形成聚类,用于无监督分类。 我的问题是:除了聚类之外,我还可以使用什么来执行无监督的分类,以及如何进行分类?或者,除了对无监督的分类进行聚类之外,没有其他选择? 编辑:是的,我的意思是k-意思。
浏览 6
提问于2020-11-21
得票数 0
回答已采纳
2
回答
用于聚类的混合数据类型
我有以下类型的聚类数据-数字数据、分类数据和经度数据,用于python中一个数据的位置。当数据混合到这个程度时,我想知道如何进行聚类。 是否可以使用DBSCAN或分层群集,以及需要做什么才能将分类数据转换为数字。地理位置数据也是如此。
浏览 0
提问于2019-02-15
得票数 0
3
回答
分类与检测的区别
、
、
、
、
我正在为我的硕士论文阅读以下文章:在2.1节中说:“我们将区分聚类的分类步骤转化为检测步骤”分类和检测之间有什么区别?最初,我认为它的意思是使用“分类器”定义一个更多类的分类器(然后只对所有带有input=image补丁的类、output=类存在一个分类器),用“检测器”定义一个类的分类器(对于每个类都有一个带有input=image补丁的不同检测器,output=是/否)。但在这句话之前,他说“先对数据进行聚类,然后对每个聚类(类)学习一个指示性分类器”,然后,用分类器表示“每个类(聚类)都存在一个分类器”。then..what,它会说区分分类器和检测?谢谢
浏览 1
提问于2014-01-05
得票数 7
回答已采纳
3
回答
如何检验无监督聚类模型输出的准确性?
、
我正在试着测试我的非监督K-均值聚类是否能够正确地聚集我的数据。我有一个无监督的K均值聚类模型输出(如下面的第一张照片所示),然后使用实际的分类对数据进行聚类。 📷 下面的照片是实际分类。我试图用Python测试我的K-均值分类(上面)与实际分类相比有多好。 📷 对于我的K-表示代码,我使用的是一个简单的模型,如下所示: kmeans = KMeans(n_clusters=4, random_state=0).fit(myData) labels = kmeans.labels_ 对我来说,比较无监督的KMeans聚类模型与实际分类的效果最好的方法是什么?
浏览 0
提问于2017-03-09
得票数 7
回答已采纳
1
回答
聚类和分类在Python中的结合
、
Python中有一种叫做K-means的聚类方法.经过聚类处理后,我希望基于支持向量机或其他分类方法计算每个聚类的精度。 我该怎么做?
浏览 3
提问于2018-09-15
得票数 0
回答已采纳
1
回答
基于动作顺序和时间顺序的用户聚类/分类
、
、
、
我有一些用户数据,其中每个用户都有一个特定的模式,在不同的地方呆了一段时间。我想要创建一个模型,它将根据这些模式和在每个地方花费的时间对这些用户进行聚类/分类。因此,假设用户模式如下: Place_1(60 min)- Place_2(30 min)- Place_5(45 min)- user 1 -label(1) Place_1(60 min)- Place_2(60 min)- Place_5(45 min)- user 2 -label(2) Place_1(60 min)- Place_2(60 min)- Place_5(40 min)- user 3 -label(2)
浏览 0
提问于2018-05-18
得票数 1
1
回答
扫描所有机器学习分类器?
、
、
我正在使用Weka对一些大型数据集执行分类、聚类和一些回归。我目前正在尝试所有的分类器(决策树、SVM、朴素贝叶斯等)。 有没有办法(在Weka或其他机器学习工具包中)扫描所有可用的分类器算法,以找到产生最佳交叉验证精度或其他度量的算法? 我也想为我的其他聚类问题找到最好的聚类算法;也许可以找到最低的误差平方和?
浏览 0
提问于2013-10-12
得票数 1
4
回答
我可以使用无监督学习,然后是监督学习吗?
、
、
、
我有一个关于使用监督学习和非监督学习对文档进行分类的问题。 例如:-我有一堆关于足球的文件。我们知道,足球在英国、美国和澳大利亚有着不同的含义。因此,很难将这些文件分为三种不同的分类(即足球、美式足球和澳大利亚足球)。 我的方法尝试使用基于无监督学习的余弦相似项。在使用聚类学习之后,我们能够基于余弦相似性创建多个聚类,其中每个聚类将包含相似的文档术语。在创建聚类之后,我们可以使用语义特征来识别这些聚类,这取决于支持向量机( SVM )这样的监督模型来进行精确的分类。 我的目标是创建更准确的分类,因为如果我想测试一个新的文档,我想知道这个文档是否可以与这些分类相关。
浏览 0
提问于2014-08-16
得票数 5
3
回答
在不事先知道类数的情况下进行实时分类
、
是否有一个实现的算法(优先使用python/R或java )可以在完全没有先验知识或假设的情况下对来自未知生成器的传入数据进行分类。 例如,: 设G是2d向量的发生器,它在每秒产生一个向量。 我们所知道的,也没有别的,就是这些向量在空间上是可分离成簇的(欧几里得距离)。 问题:如何实时地对我的数据进行分类,以便在每次迭代时,算法都会提出聚类?
浏览 7
提问于2015-05-27
得票数 1
1
回答
是否有处理数值属性的子空间聚类方法?
、
、
、
、
我正在尝试对我的数据集(具有数字维度)应用一些聚类方法。但我确信,对于不同的聚类,这些特征具有不同的权重。我读到有一种称为软子空间聚类的方法,它试图同时识别集群和每个集群的特征权重。然而,我发现的算法只适用于分类数据。 我正在尝试找出一些软子空间聚类算法用于数值计算。您是否知道是否有任何方法,或者我如何调整最初设计用于处理分类数据的方法来处理数字数据(我认为有必要提出一些方法来衡量每个集群中每个数字特征的相关性)?
浏览 14
提问于2018-02-03
得票数 0
6
回答
聚类算法是否需要在预处理阶段进行特征缩放?
、
、
、
功能缩放对聚类算法有用吗?什么类型的特性,我的意思是数字,分类等,是最有效的聚类?
浏览 0
提问于2017-09-03
得票数 7
回答已采纳
3
回答
如何对(k-均值)聚类模型中的某些特征给予更高的重视程度?
、
、
、
我用数字和分类变量对数据进行聚类。为了处理集群模型的分类变量,我创建了虚拟变量。然而,我觉得这会对这些虚拟变量产生更高的重要性,因为多个虚拟变量代表一个范畴变量。 例如,我有一个分类变量Airport,它将导致多个虚拟变量: LAX、JFK、MIA和BOS。现在假设我也有一个数值温度变量。现在,我的机场变量似乎是温度变量的4倍,集群主要是基于机场变量。 我的问题是,我希望所有变量都具有同样的重要性。有办法这样做吗?我想用一种不同的方式来缩放变量,但我不知道如何对它们进行缩放,以使它们具有同样的重要性。
浏览 0
提问于2019-04-16
得票数 6
回答已采纳
1
回答
聚类标签的无偏预测
、
、
、
、
我有兴趣评估通过非监督聚类发现的聚类标签的可预测性。假设我有一个由病人组成的数据集,我使用一种无监督的聚类技术来根据他们的基因表达谱对他们进行分组。我的方法发现了4个簇。现在,我想从表达式数据中了解这个集群成员资格是否是可预测的。以全数据无监督聚类标签作为输出变量,以交叉验证的方式训练有监督分类器。因此,我使用80%的数据对分类器进行训练,并对其余20%的分类器进行准确性评估。 这种方法是否有偏差,因为输出集群标签是从完整的数据中学习的?如果是的话,我怎样才能不偏不倚呢?如果我以一种交叉验证的方式进行聚类,我想我需要手动将每个不同折叠之间的集群关联起来。因为我特别感兴趣的是四个集群中的一个相对
浏览 0
提问于2015-04-15
得票数 1
回答已采纳
2
回答
无监督的文件分类
、
、
我正在尝试创建一个分类器,在这个分类器中,用户的“手动”工作较少。对于较少的体力劳动,我的意思是训练集的手工标记不会有初始阶段,比如机器学习(监督)。 我的数据集是由不同类的实例组成的。这些文件中有针对不同客户的指定产品的订单。每个客户都有自己的模板。 例如,我得到了: [Client A] Image Date: xxx Order: Products: Table [Client B] Date: xxx Order Image Products: table Image 现在,我正在对每个文档进行简单的检查,以确定是否存在指定的特性,这是由用户手动识别的(按区域和使用编辑距离)。 类
浏览 0
提问于2016-09-22
得票数 2
回答已采纳
1
回答
在这种情况下,有什么更好:分类还是聚类?
、
我从不同的来源( FB、Twitter、Linkedin )收集数据,然后用结构化格式制作这些数据。因此,现在我有一个包含10000行(10000个人)的csv文件,相关的数据是关于他们的名字、年龄、兴趣和购买习惯。 我真的被困在这一步:分类或聚类。对于分类,我实际上没有预定义的类或模型供用户对它们进行分类。 对于聚类:我开始计算相似性和KMeans,但仍然无法得到我想要的结果。在进入协作过滤的下一步之前,我如何决定选择什么呢?
浏览 2
提问于2019-05-08
得票数 0
回答已采纳
4
回答
求多个簇的算法
、
假设我有一组数据(具有二维特征空间),并且我想从它们获得集群。但我不知道会形成多少簇。 然而,我想要单独的集群(集群的数量超过2)。 我想,在这种情况下,k的方法是不能用的。我也不能使用分层聚类。另外,由于没有训练集,因此不能将KNN分类器用于任何其他分类器(监督学习不能用作训练集)。我不能使用光学算法,因为我不想指定半径(我不知道半径) 有什么机器学习技术可以给我提供多个集群(基于距离的聚类),它也能很好地处理离群点? 这应该是输出: 📷
浏览 0
提问于2015-05-29
得票数 4
回答已采纳
3
回答
如何对抗KMeans聚类带来的随机性
、
、
、
我正在开发一种算法,根据图像数据对不同类型的狗进行分类。该算法的步骤如下: 检查所有的训练图像,检测图像特征(即冲浪),并提取描述符。收集所有图像的所有描述符。 在所收集的图像描述符中进行聚类,并在集合中查找k个“单词”或质心。 通过所有图像重申,提取冲浪描述符,并将提取的描述符与通过聚类找到的最接近的“单词”匹配。 将每幅图像表示为聚类中找到的单词的直方图。 将这些图像表示(特征向量)提供给分类器并进行训练。 现在,我遇到了一个小问题。在图像描述符集合中找到“单词”是非常重要的一步。由于聚类的随机性,每次运行程序时都会发现不同的集群。不幸的是,有时我的分类器的精度
浏览 0
提问于2013-09-07
得票数 3
回答已采纳
1
回答
最好的聚类算法,客户细分
、
、
、
我有一个数据集的分类和数值变量,我想知道什么是最好的算法聚类客户? 如何找到细分客户的基本模式??
浏览 0
提问于2023-02-26
得票数 1
8
回答
Java集群库
、
、
我正在寻找一个轻量级的java聚类库。我不需要在那个库中有100个集群算法,只需要5到7个算法就可以了。 我敢肯定,你会问:“你需要什么样的算法,目的是什么”:)。我只需要在聚类的帮助下对我的数据进行分类。例如,K表示。 附言:我知道weka,但我不想使用它,因为它不是专门用于集群的。
浏览 2
提问于2010-01-25
得票数 21
1
回答
聚类算法,其结果不受数据置换和引导扰动的影响
、
、
、
、
我想知道,在文献中是否有一种聚类算法,其输出(分区、树状图、软赋值等)不变性: 数据点中的排列(通常许多层次聚集聚类不是这样) 由于引导特征而引起的扰动 我很高兴在文献中找到这样一个算法的切入点! 准确地说,我知道聚类的公理式,例如Kleinberg的不可能性定理()或聚类分类法()的开始, 但他们似乎没有考虑过这两项属性。
浏览 4
提问于2015-01-21
得票数 0
回答已采纳
1
回答
图与网络挖掘:聚类/社区检测/分类
、
、
、
、
我正在处理图/网络,其中节点和边有一些属性。 我想知道存在哪些算法: 1)将图聚为k组:仅依赖于结构(只依赖边缘属性) 2)社区检测:(与图聚类相同),但社区数量未知。 3)分类:一种有监督的方法,在这种方法中,我要根据节点的属性和连接(边)对节点进行分类。 4)页面排名:根据一个组(社区、集群)中最重要的节点的连接来检测它们。 非常感谢。
浏览 0
提问于2018-07-06
得票数 1
回答已采纳
1
回答
PCA和UMAP之后进入随机森林。
、
在将嵌入的聚类数据发送到随机森林分类器之前,先将PCA应用于数据集,然后将UMAP聚类应用于PCA数据,这是一个有效的过程吗? 进程摘要: X_train -> x_PCA -> UMAP ->随机森林 这是生成预测模型的有效过程吗?
浏览 0
提问于2022-07-02
得票数 2
回答已采纳
4
回答
K-意思是聚类还是分类?
、
、
、
、
为什么在k均值聚类方法中选择基于特征的k(以死或活的病人场景为例,k将被认为是聚类而不是分类)?
浏览 0
提问于2018-08-28
得票数 3
1
回答
如何在不知道集群数量的情况下对二进制类别数据进行聚类?
我有一个分类数据集,我需要在不知道k的情况下对它进行聚类。我知道聚类数据的标志,而不知道质心的数目,比如G-均值,但是对于类别数据,没有一种是有效的。我认为DBSCAN也是因为密度不好。我的数据集通常是营销数据集,每一行都是客户,每一列对应一个属性,如眼睛颜色。因此,我需要在任何算法之前对这个数据集进行二进制化。有什么主意吗?
浏览 0
提问于2016-05-07
得票数 3
回答已采纳
1
回答
当预定义的类别不可用时如何对文本进行分类
、
、
我有一个问题,不知道该应用哪种算法。我正在考虑在第二种情况下应用集群,但不知道第一种情况: 我有.5百万张信用卡活动文档。每个文档都定义良好,每行包含一个事务。日期、金额、零售商名称以及零售商的简短描述( 5-20个单词)。样本: 2004-11-47,$500,亚马逊,一家提供商品和服务的在线零售商,包括书籍,硬件,音乐等。问题: 1.如何对每个条目进行分类,因为没有预先定义的类别。2.如果给你预先定义的类别,比如“餐馆”、“娱乐”等,你会怎么做?
浏览 0
提问于2011-09-14
得票数 1
回答已采纳
1
回答
集成学习、多分类器系统
、
、
、
、
我试图使用MCS (多分类器系统)对有限的数据做一些更好的工作,即变得更精确。 我目前正在使用K-均值聚类,但可以选择使用FCM (Fuzzy Means),即数据被聚成组(集群),数据可以代表任何颜色。我首先对数据进行预处理和归一化后对数据进行聚类,得到一些不同的聚类。然后,我继续使用聚类作为Bayes分类器的数据,每个聚类表示一个不同的颜色,Bayes分类器被训练,然后将来自这些分类器的数据输入单独的Bayes分类器。每个Bayes分类器只训练一种颜色。如果我们以3- 10为蓝色,13 - 20为红色,0-3之间的光谱为白色,直至1.5,则蓝色逐渐由1.5 -3变为蓝色,而蓝色至红色的光谱
浏览 1
提问于2012-03-02
得票数 4
1
回答
大数据集的python中的共识聚类
、
、
我在python 中找到了一个非常好的共识聚类实现。 然而,对于具有大样本大小的大数据集,该算法将不起作用,因为它使用维度样本、样本来构建矩阵。 对于大型数据集上的共识聚类,有没有高效的python实现?
浏览 12
提问于2021-03-07
得票数 0
2
回答
用特定大小的组进行聚类
、
、
、
是否有任何类型的聚类算法侧重于形成特定大小的集群?这可以说是一种分组算法,而不是一种聚类算法。 基本上,给定n个数据点和一定大小的固定组k,找出基于某些分类器的点到集合的最优分布,这将使给定组中每个点的分类器的距离最小。 这个问题似乎与集群问题非常相似,但主要的区别在于,我们关注的是特定的集群大小,而不是集群的数量。
浏览 4
提问于2014-05-11
得票数 1
回答已采纳
3
回答
你会用哪种算法来进行文本聚类分类?
、
如果您被要求使用聚类进行文本分类。你会使用哪种算法?为什么?
浏览 0
提问于2015-11-25
得票数 1
2
回答
iOS核心ML与模型
、
、
、
、
我正在尝试使用scikit创建一个DBSCAN机器学习模型。到目前为止,我已经以某种方式工作了Python模型。 在此之后,我希望将其转换为Core模型,以便能够在我的iPhone应用程序中使用它。 我读了很多信息。我发现了这样的东西: 核心ML只支持回归和分类(不支持聚类、排序、降维等) DBSCAN是一种聚类算法,因此,根据这一点,即使我成功地创建了Python机器学习模型,我也无法将它转换为Core ML,并在我的应用程序中使用?
浏览 5
提问于2018-01-04
得票数 2
回答已采纳
7
回答
K-均值聚类能进行分类吗?
、
、
、
我想知道k均值聚类算法是否能做分类? 如果我做了一个简单的k-均值聚类。 假设我有很多数据,我使用k-均值聚类,然后得到2簇A,B,质心的计算方法是欧氏距离。 A组在左侧。 B组在右侧。 所以如果我有一个新的数据。我该怎么办? 再次运行k-均值聚类算法,并能得到新的数据属于哪个聚类? 记录最后一个质心,用欧氏距离来计算,确定新的数据是否属于? 其他方法?
浏览 5
提问于2014-03-10
得票数 22
回答已采纳
1
回答
如何在分类机器学习算法中发现新的类?
、
、
我使用多类分类器(支持向量机,通过一个-Vs-所有)来分类数据样本。假设我目前有不同的n类。 但是,在我所面临的场景中,一个新的数据样本可能属于以前从未见过的新类n+1。 所以我想你可以说我需要一种在线学习的形式,因为在开始的时候没有适合以后出现的所有数据的不同的训练集。相反,我需要支持向量机来动态地适应未来可能出现的新类。 所以我想知道我能不能. 确定一个新的数据示例并不完全适合现有的类,而是应该创建一个新的类。 将该新类集成到现有的分类器中。 我隐约想出了几个解决这个问题的方法: 如果没有一个二进制支持向量机分类器(在OVA情况下每个类都有一个)对新数据样本预测相当高的
浏览 3
提问于2015-12-13
得票数 11
回答已采纳
2
回答
是否有一种聚类算法可以接受某些聚类作为输入,并输出更多的聚类?
、
、
、
、
以下是我的任务:我有我不太了解的数据。最后的任务是建立一个分类器,将样本分类为几个类别。有些分类非常清楚,我们可以很容易地将它们用作分类器的标签。但我想可能有更多有用的类别,因为现在我的大多数样本都不属于任何类别。由于我不是在特定领域的专家,我想使用一些聚类算法来显示可能的标签想法。当使用传统的聚类算法时,它们会在我不感兴趣的数据中找到各种模式。 因此,我正在寻找一种告诉算法的方法:“嘿,在我的数据中找到一些集群,但是请考虑到现有的集群(或标签数据)。”这应该告诉聚类算法我感兴趣的是什么,什么不感兴趣。 会做这样的事情吗?或者其他如何解决寻找附加标签的问题? 顺便说一句:就我而言,我在做NLP
浏览 0
提问于2020-10-30
得票数 3
1
回答
文本的分层聚类,按比例排列
、
、
我有一个很大的数据集(数十亿条记录),它几乎完全由分类变量组成。这些数据将被用来预测一个相当罕见的数值结果。大多数属性都具有很高的基数:可能只有少数几个样本属于每个类别。 我阅读了,其中他们使用R中的分层聚类来降低类似任务的维数。以下代码用于小型数据集,但在扩展时会迅速消耗所有内存: library(cluster) numClusters = 42 hc <- hclust(daisy(df)) cutree(hc, k = numClusters) 我考虑过使用Mahout的kmeans实现,但这对于分类变量来说是行不通的,因为它需要一个双倍向量。 StackOverflow社区中有
浏览 3
提问于2015-06-25
得票数 0
回答已采纳
1
回答
分类,具有不同长度和多于一个特征的时间序列(每个人超过一个时间序列)
、
、
对于具有多个特征和不同长度的时间序列的分类问题,主要的选择是什么?到目前为止,我已经读过关于dtw的k-方法,但还没有看到它适用于多个特性。
浏览 0
提问于2022-08-28
得票数 1
1
回答
一个简单的java程序,根据字符串的值执行canopy集群字符串
、
、
我想知道如何在java中使用canopy cluster对此输入进行聚类? 1 access 375 1 addition 375 1 advance 375 1 answered 375 1 applied 375 1 approximate 375 1 evil 375 1 hiway 375 1 home 375 1 hope 375 1 hotmail 375 3 town 375 4 forum 375
浏览 1
提问于2013-02-13
得票数 0
回答已采纳
1
回答
不带标签传播的半监督学习
、
、
、
我正试着用亲切感把一些词聚在一起。利用Word2Vec,用一种普通的无监督聚类方法得到了每个词的向量表示。 但在这些词中,我知道其中一些词的分类,例如我知道: Colors集团==> red,blue,yellow Gender集团==> man,woman UNKNOWN ==> shoes,brown,beautiful. 如示例所示,brown应该被归类为Color,但是shoes和beautiful应该是不同的集群。 我如何利用这些信息创建一个半监督的模型,以便对每个单词进行聚类? 虽然这个问题是通用的,但实际上我尝试用Python创建一个程序,我尝试了sklear
浏览 0
提问于2018-08-07
得票数 2
回答已采纳
1
回答
如何在新算法中添加weka特征?
、
我想在一个算法中加入一种新的算法,它具有分类、聚类、关联等特征。我应该如何编写包含所有weka特性的代码,并为这个新算法添加一个选项卡。我在weka中添加了一个虚拟算法,它现在起作用了,我想添加一个结合了weka特征的算法。 谢谢
浏览 2
提问于2011-03-29
得票数 5
3
回答
K-表示初始中心决定结果?
、
、
K-均值聚类是一种常用的聚类方法.假设K-均值聚类有N个点,即N个点应划分为K个群,其中每个组中的点具有相似性。 在K-means clustering处理之前,我们应该给初始中心赋值,在这里,我从所有的点中随机选择K点,程序每次运行都得到不同的输出。为什么这会导致不同的结果,我如何知道哪一个是最好的分类?
浏览 5
提问于2014-01-07
得票数 4
回答已采纳
2
回答
K-均值和LDA用于文本分类:如何测试准确性?
、
、
、
我有很多推文,我想根据它们的相似性进行分类。不幸的是,我不太熟悉文本分类和nlp,所以我必须阅读大量的文件,然后才有一个主题的想法。我的推特没有标签,所以我不能对它们进行分类:只是手动的,但这会很费时。我想按主题对它们进行分组,所以我首先考虑了LDA的主题分类,然后考虑了k-均值聚类。这是一个很好的做法吗?有哪些不同之处,以及如何检验分类的准确性?
浏览 0
提问于2020-06-22
得票数 0
回答已采纳
3
回答
文本分类和主题模型有什么区别?
、
、
我知道聚类和分类在机器学习中的区别,但是我不理解文本分类和文档主题建模之间的区别。我可以使用文档上的主题建模来识别一个主题吗?我可以使用分类方法对这些文档中的文本进行分类吗?
浏览 0
提问于2014-08-12
得票数 30
回答已采纳
1
回答
使用f-measure评估dbscan的结果
、
、
我使用sklearn的接口来评估dbscan的结果,根据文档,F-measure是一种分类度量,但dbscan是一种聚类方法。我知道F-度量在理论上可以作为聚类的一种外部评估方法。那么,如何利用它来评估dbscan的结果呢?
浏览 3
提问于2016-11-03
得票数 0
1
回答
如何将文本和分类数据混合在一起的数据进行聚类?
、
、
、
我有一组字符串,每个字符串都有与之相关的分类信息。但是,分类信息并不总是很好,所以我需要根据文本内容和类别对消息进行聚类。做这件事最好的方法是什么?
浏览 0
提问于2015-05-18
得票数 3
1
回答
机器学习算法在数据属性子集中的应用
、
、
、
、
我有一个庞大的混合数据集,它由数值属性和分类属性组成,在OneHotEncoding上形成一个具有很高维数的数据集。 将机器学习算法(如K-均值聚类、降维和回归)应用于数据集子集是否明智?例如,首先将K-均值聚类应用于数值列,然后将结果与分类数据集连接起来。
浏览 0
提问于2018-02-28
得票数 1
回答已采纳
2
回答
聚类公司简历(CV)中的python (聚类文本)
、
、
我试图对我们公司的履历(简历)进行分类。总共约有100份简历。这样做的目的是根据他们的简历内容找到类似的人。我已经将docs一词转换为文本文件,并将所有候选文档读入python字典,格式如下: cvdict = { 'name1' : "cv text", 'name2', : 'cv text', ... } 我还删除了大多数标点符号,降低了它,删除了数字等,并删除了长度小于x (4)的单词。 我的问题: 聚类是正确的方法吗?如果没有,那么哪种机器学习算法将是这个任务的合适的初始关注点。 与某些python代码有关的任何
浏览 2
提问于2014-03-26
得票数 1
回答已采纳
1
回答
基于语义相似度的分层聚类算法
、
、
我对整个集群和其他方面都很陌生,所以我有点迷失在编程的最后一步。我正在做一个基于主题语义相似性的项目,该项目使用层次化算法对学生进行聚类。 我所理解的是,我必须收集列表中的所有主题,然后应用像分层聚类这样的聚类技术。 如何用python编写代码,根据主题之间的语义相似性对学生进行聚类?
浏览 5
提问于2022-02-15
得票数 -1
1
回答
绘制多维K-means聚类NLP python
、
、
、
、
我有一个为NLP分类器设计的多维向量。 下面是数据帧(text_df): 我使用TfidfVectorizer来创建向量: from sklearn.feature_extraction.text import TfidfVectorizer tfidf_v = TfidfVectorizer(max_df=0.5, max_features=13000, min_df=5, stop_words='english
浏览 14
提问于2018-08-29
得票数 0
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python实现K-means聚类算法
Python 谱聚类算法从零开始
DBSCAN聚类算法详解
Python+sklearn使用DBSCAN聚类算法案例一则
机器学习常见的聚类算法
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券