开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

即使我不想预测任何东西，我也需要K-means聚类的测试训练拆分吗？

K-means聚类是一种常用的无监督学习算法，用于将数据集划分为不同的簇。在进行K-means聚类之前，通常需要进行测试训练拆分，以确保模型的准确性和可靠性。

测试训练拆分是指将数据集划分为训练集和测试集两部分。训练集用于训练模型，测试集用于评估模型的性能。通过将数据集分为训练集和测试集，可以验证模型在未见过的数据上的泛化能力。

对于K-means聚类算法，测试训练拆分的目的在于评估聚类结果的质量。通过将一部分数据作为测试集，可以计算聚类结果与真实标签之间的相似度指标，如轮廓系数、互信息等，从而评估聚类的准确性和一致性。

在实际应用中，K-means聚类的测试训练拆分可以帮助我们选择合适的K值（簇的数量），以及评估不同参数设置下的聚类效果。此外，测试训练拆分还可以用于比较不同算法或模型的性能，从而选择最优的聚类方法。

对于腾讯云相关产品，腾讯云提供了一系列的人工智能和大数据分析服务，可以用于K-means聚类的测试训练拆分和模型评估。例如，腾讯云的机器学习平台（https://cloud.tencent.com/product/tiia）和数据分析平台（https://cloud.tencent.com/product/dla）提供了丰富的工具和算法，可用于数据预处理、模型训练和评估等任务。

总结起来，即使不预测任何东西，进行K-means聚类的测试训练拆分仍然是必要的，以确保聚类结果的准确性和可靠性。腾讯云提供了相关的人工智能和大数据分析服务，可用于支持K-means聚类的测试训练拆分和模型评估。

相关搜索:如何在特定列中找到0的平均值如何使用kotlinscript DSL (build.gradle.kts)通过url添加maven存储库如何替换字符串的最后一行持续范围Excel的COUNTA 在PHP中删除多维数组中特定键的重复值，但删除最后一个？在sklearn中保存MinMaxScaler模型如何在火炬张量中交换两行？如何使用JavaScript for循环在每行显示一个新的随机数？vuejs v-用于每5个项目添加一次引导行在for loop django模板中添加list的限制

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

当我们拿到数据进行建模时，如何选择更合适的算法？

2.其次，看数据特征的数据类型，然后做一些初步的数据统计，比如是否数据均衡，大致的数据分布是怎样的（不同类别的分布）

01

数据缺失的坑，无监督学习这样帮你补了

大数据文摘作品编译：Chole、糖竹子、saint 经常被数据里的NaN值困扰，又不想昧着良心用均值填充？本文介绍了几种常见的数据缺失值处理方法，其中一些用到了聚类算法。无监督学习（UL）有很多没开发的潜力。它是一门从“未标记”数据中推导一个函数来描述其隐藏结构的艺术。但首先，从数据中找到其结构是什么意思呢？让我们来看以下两个例子： Blobs 气泡状分布：这个简单。任何人看到这张图都会认为它是由三个不同的簇组成的。如果你对统计学非常熟悉，你可能还会猜想它由三个隐藏的高斯分布构成。对一个新的数据样本，

03

机器学习学习笔记(3) --SparkMLlib部分算法解析

由点与点之间的关系反推出函数表达式的过程就是回归，回归在机器学习中解决的问题就是值预测问题；确定一条最好的直线来拟合所有的点，假设直线是y=W0+W1X，确定直线就是确定W0和W1的值；

02

SPSS Modeler用K-means（K-均值）聚类、CHAID、CART决策树分析31省市土地利用情况和GDP数据

随着经济的快速发展和城市化进程的不断推进，土地资源的利用和管理成为了一项极为重要的任务。而对于全国各省市而言，如何合理利用土地资源，通过科学的方法进行规划和管理，是提高土地利用效率的关键。

02

你必须要了解的大数据潮流下的机器学习及应用场景

机器学习是一门人工智能的科学，能通过经验自动改进的计算机算法的研究。　　　机器学习是一个多学科交叉的领域，会涉及到计算机、信息学、数学、统计学、神经科学等。　　机器学习是大数据的核心技术

08

一文读懂K均值（K-Means）聚类算法

大数据文摘授权转载自数据派THU作者：王佳鑫审校：陈之炎概述众所周知，机器学习算法可分为监督学习(Supervised learning)和无监督学习(Unsupervised learning)。监督学习常用于分类和预测。是让计算机去学习已经创建好的分类模型，使分类（预测）结果更好的接近所给目标值，从而对未来数据进行更好的分类和预测。因此，数据集中的所有变量被分为特征和目标，对应模型的输入和输出；数据集被分为训练集和测试集，分别用于训练模型和模型测试与评估。常见的监督学习算法有Regression

02

如何通过机器学习还原图像色彩

作者 | Klevis Ramo 译者 | Teixeira10 在本文中，作者提出了使用k-means算法来对图像进行色彩还原，介绍算法的步骤，同时应用在图像上，通过对比还原前后的图像，来证明k-means算法的有效性。 k-means是机器学习中最著名、最广泛使用的算法之一。在这篇文章中，将使用k-means算法来减少图像上的颜色(但不减少像素)，从而也减少了图像的大小。在这个领域不需要任何基础知识，因为可执行应用程序文件（大小为150MB,这是由于长时间的Spark依赖）已经提供了友好的用户界面

如何通过机器学习还原图像色彩

作者 | Klevis Ramo 译者 | Teixeira10 在本文中，作者提出了使用k-means算法来对图像进行色彩还原，介绍算法的步骤，同时应用在图像上，通过对比还原前后的图像，来证明k-means算法的有效性。 k-means是机器学习中最著名、最广泛使用的算法之一。在这篇文章中，将使用k-means算法来减少图像上的颜色(但不减少像素)，从而也减少了图像的大小。在这个领域不需要任何基础知识，因为可执行应用程序文件（大小为150MB,这是由于长时间的Spark依赖）已经提供了友好的用户界面。所

02

算法岗机器学习相关问题整理（无监督算法部分）

From https://blog.csdn.net/gxq1221/article/details/81113346 腾讯18年数据挖掘

01

【机器学习实战】第10章 K-Means（K-均值）聚类算法

文章主要介绍了如何利用Python实现K-Means聚类算法。首先介绍了K-Means算法的基本概念和原理，然后通过实例详细讲解了K-Means算法的实现过程。最后，总结了K-Means算法在机器学习中的应用场景和优势。

08

看机器学习如何还原图像色彩

k-means是机器学习中最著名、最广泛使用的算法之一。在这篇文章中，将使用k-means算法来减少图像上的颜色(但不减少像素)，从而也减少了图像的大小。在这个领域不需要任何基础知识，因为可执行应用程序文件（大小为150MB,这是由于长时间的Spark依赖）已经提供了友好的用户界面。所以你可以很容易地用不同的图像来做实验。在GitHub上有完整可用的执行代码。 K-Means 算法 k-mean算法是一种非监督型学习算法，将相似的数据分成不同的类别或集群。它是无监督型算法，因为数据没有被标记，而且算法不需要

09

机器学习（7）——聚类算法聚类算法

聚类算法前面介绍的集中算法都是属于有监督机器学习方法，这章和前面不同，介绍无监督学习算法，也就是聚类算法。在无监督学习中，目标属性是不存在的，也就是所说的不存在“y”值，我们是根据内部存在的数据特征，划分不同的类别，使得类别内的数据比较相似。我们对数据进行聚类的思想不同可以设计不同的聚类算法，本章主要谈论三种聚类思想以及该聚类思想下的三种聚类算法。666 本章主要涉及到的知识点有： “距离” K-Means算法几种优化K-Means算法密度聚类算法思想：“物以类聚，人以群分” 本节首先通过聚类算法

07

原创 | 一文读懂K均值（K-Means）聚类算法

众所周知，机器学习算法可分为监督学习(Supervised learning)和无监督学习(Unsupervised learning)。

04

看机器学习如何还原图像色彩

【译者注】在本文中，作者提出了使用k-means算法来对图像进行色彩还原，介绍算法的步骤，同时应用在图像上，通过对比还原前后的图像，来证明k-means算法的有效性。以下为译文： k-means是机器学习中最著名、最广泛使用的算法之一。在这篇文章中，将使用k-means算法来减少图像上的颜色(但不减少像素)，从而也减少了图像的大小。在这个领域不需要任何基础知识，因为可执行应用程序文件（大小为150MB,这是由于长时间的Spark依赖）已经提供了友好的用户界面。所以你可以很容易地用不同的图像来做实验。在Git

07

特征工程系列之非线性特征提取和模型堆叠

当在数据一个线性子空间像扁平饼时 PCA 是非常有用的。但是如果数据形成更复杂的形状呢？一个平面（线性子空间）可以推广到一个流形（非线性子空间），它可以被认为是一个被各种拉伸和滚动的表面。

04

《python数据分析与挖掘实战》笔记第5章

分类和预测是预测问题的两种主要类型，分类主要是预测分类标号（离散属性），而预测主要是建立连续值函数模型，预测给定自变量对应的因变量的值。

01

R语言开启人工智能之旅

当下人工智能可谓火热，很多行业在陆续接入相关的功能以及服务。可是大家想不想在R语言中实践下呢？想不想我都要讲一下，供想实践的参考吧。

01

智能主题检测与无监督机器学习：识别颜色教程

介绍人工智能学习通常由两种主要方法组成：监督学习和无监督的学习。监督学习包括使用现有的训练集，这种训练集由预先标记的分类数据列组成。机器学习算法会发现数据的特征和这一列的标签(或输出)之间的关联。通过这种方式，机器学习模型可以预测它从来没有公开过的新的数据列，并且根据它的训练数据返回一个精确的分类。在你已经有了预先分类的数据的情况下，监督学习对于大数据集是非常有用的。在另一种是无监督的学习。使用这种学习方式，数据不需要在训练集中进行预先标记或预分类，相反，机器学习算法在数据的特征中发现相似的特征和关

04

吴恩达《Machine Learning》精炼笔记 8：聚类 KMeans 及其 Python实现

比如下面的数据中，横纵轴都是xx，没有标签（输出yy）。在非监督学习中，我们需要将一系列无标签的训练数据，输入到一个算法中，快速这个数据的中找到其内在数据结构。

01

tensorflow+k-means聚类简单实现猫狗图像分类

本文使用的是 kaggle 猫狗大战的数据集：https://www.kaggle.com/c/dogs-vs-cats/data

01

如何使用 Keras 实现无监督聚类

由于深度学习算法在表达非线性表征上的卓越能力，它非常适合完成输入到有标签的数据集输出的映射。这种任务叫做分类。它需要有人对数据进行标注。无论是对 X 光图像还是对新闻报道的主题进行标注，在数据集增大的时候，依靠人类进行干预的做法都是费时费力的。

03

目标检测算法之YOLO系列算法的Anchor聚类代码实战

之前已经讲了一些目标检测原理性的东西了，今天讲一个偏工程一点的东西，就是如何在使用YOLO算法的时候针对自己的数据集获得合适的Anchor？

03

系统总结！机器学习的模型！

大家好，我是花哥，前面的文章我们介绍了人工智能、机器学习、深度学习的区别与联系，指出了如今的人工智能技术基本上就是指机器学习。

01

数据挖掘10大算法详细介绍

在一份调查问卷中，三个独立专家小组投票选出的十大最有影响力的数据挖掘算法，今天我打算用简单的语言来解释一下。

04

【零一】#操作教程贴#从0开始，教你如何做数据分析#中阶#第十篇

大家好，我是零一。这一篇给大家介绍聚类/分类。我的公众微信号是start_data，欢迎大家关注。我们先讲一讲聚类。上一篇的探索关系，很多朋友反映说非常有趣，这一篇，聚类分析也是相当有趣的。聚类分析简称聚类，俗话说物以类聚，人以群分，聚类就是划分子类的过程。算法上面多用k-means和k-medoids，当然，大家可以跳过这些算法的过程，用程序来完成即可。说简单一点，通过聚类，可以将我们的数据进行分类，并且描述每个类的特征。聚类应用非常广泛，包括在电商领域的应用也是多不胜数。比如（1）对客户数

08

机器学习笔记之聚类算法K-Means

聚类算法是典型的无监督学习，其训练的样本中值包含样本的特征，不包含样本的标签信息。在聚类算法中。利用样本的特征，将具有相似属性的样本划分到统一类别中，它有点像全自动分类。

02

机器学习算法比较

物以类聚，给定一个训练数据集，对于新输入的实例，在训练集数据中找出和该实例最邻近的k个实例，算法的具体步骤为：

01

算法工程师-机器学习面试题总结(3)

FM（因子分解机）模型和逻辑回归是两种常见的预测建模方法，它们在一些方面有不同的优缺点

02

吴恩达笔记8-KMeans

本周的主要知识点是无监督学习中的两个重点：聚类和降维。本文中首先介绍的是聚类中的K均值算法，包含：

01

初学者的十大机器学习算法

“哈佛商业评论”（Harvard Business Review）的文章将“数据科学家”称为“21世纪最性感的工作”，对ML算法的研究获得了极大的吸引力。因此，对于那些从ML领域开始的人，我们决定重新启动我们非常受欢迎的黄金博客10个算法机器学习工程师需要知道 - 虽然这篇文章是针对初学者的。

03

详细介绍了Python聚类分析的各种算法和评价指标

较为详细介绍了聚类分析的各种算法和评价指标，本文将简单介绍如何用python里的库实现它们。

04

Python：常用机器学习框架

科学计算 Python packages 一览加入您有了 Python 编程经验，并对机器学习有所了解。Python 有很多为机器学习提供便利的开源库。通常它们被称为Python科学库（scientific Python libraries），用以执行基本的数据科学任务（这里有一点程度主观色彩）： ▪ numpy - 主要用于N维数组 ▪ pandas - Python数据分析库，包含dataframe等结构 ▪ matplotlib - 2D绘图库，产出质量足以进行印刷的图 ▪ sc

09

YOLO V2的10个改进技巧（上篇）

YOLO V2的原始论文是，《YOLO9000: Better, Faster, Stronger 》，新的YOLO版本论文全名叫“YOLO9000: Better, Faster, Stronger”，主要有两个大方面的改进：

04

机器学习中 K近邻法(knn)与k-means的区别

K近邻法（knn）是一种基本的分类与回归方法。k-means是一种简单而有效的聚类方法。虽然两者用途不同、解决的问题不同，但是在算法上有很多相似性，于是将二者放在一起，这样能够更好地对比二者的异同。

02

机器学习算法之K-means特征学习

自从Deep Learning之风盛起之时到现在，江湖上诞生了很多都可以从无标签数据中学习到深度的分级的特征的算法。大部分情况，这些算法都涉及到一个多层网络，而训练和调整这个网络需要很多tricks。最近，我们发现K-means聚类算法也可以被作为一个非常快的训练方法。它的优点是快！容易实现！当然了，K-means也不是万能神丹，它也存在自身的局限性。在本文中，我们就关注K-means的方方面面。总结了最近的K-means算法的效果和介绍使用k-means来有效地学习图像的特征的一些技巧。一、

05

Deep Learning论文笔记之K-means特征学习

自从Deep Learning之风盛起之时到现在，江湖上诞生了很多都可以从无标签数据中学习到深度的分级的特征的算法。大部分情况，这些算法都涉及到一个多层网络，而训练和调整这个网络需要很多tricks。最近，我们发现K-means聚类算法也可以被作为一个非常快的训练方法。它的优点是快！容易实现！当然了，K-means也不是万能神丹，它也存在自身的局限性。在本文中，我们就关注K-means的方方面面。总结了最近的K-means算法的效果和介绍使用k-means来有效地学习图像的特征的一些技巧。一、

07

如何用机器学习方法进行数据建模？（文末福利）

当前，信息化建设的第三波浪潮正扑面而来，信息化正在开启以数据的深度挖掘和融合应用为主要特征的智能化阶段(信息化 3.0)。随着互联网向物联网(含工业互联网)延伸而覆盖物理世界，“人机物”三元融合的发展态势已然成型，除了人类在使用信息系统的过程中产生数据以外，各种传感器、智能设备也在源源不断地产生数据，并逐渐成为数据最重要的来源。

02

机器学习算法之K-means特征学习

自从Deep Learning之风盛起之时到现在，江湖上诞生了很多都可以从无标签数据中学习到深度的分级的特征的算法。大部分情况，这些算法都涉及到一个多层网络，而训练和调整这个网络需要很多tricks。最近，我们发现K-means聚类算法也可以被作为一个非常快的训练方法。它的优点是快！容易实现！当然了，K-means也不是万能神丹，它也存在自身的局限性。在本文中，我们就关注K-means的方方面面。总结了最近的K-means算法的效果和介绍使用k-means来有效地学习图像的特征的一些技巧。一

04

【数据挖掘】详细解释数据挖掘中的 10 大算法（上）

在一份调查问卷中，三个独立专家小组投票选出的十大最有影响力的数据挖掘算法，今天我打算用简单的语言来解释一下。一旦你知道了这些算法是什么、怎么工作、能做什么、在哪里能找到，我希望你能把这篇博文当做一个

05

『数据挖掘十大算法』笔记三：K-means

C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART

01

K-Means聚类算法原理

K-Means算法是无监督的聚类算法，它实现起来比较简单，聚类效果也不错，因此应用很广泛。K-Means算法有大量的变体，本文就从最传统的K-Means算法讲起，在其基础上讲述K-Means的优化变体方法。包括初始化优化K-Means++, 距离计算优化elkan K-Means算法和大数据情况下的优化Mini Batch K-Means算法。

01

使用高斯混合模型建立更精确的聚类

我真的很喜欢研究无监督学习问题。它们为监督学习问题提供了一个完全不同的挑战，用我拥有的数据进行实验的发挥空间要比监督学习大得多。毫无疑问，机器学习领域的大多数发展和突破都发生在无监督学习领域。

03

目标检测算法YOLO-V2详解

今天，我们一起学习下YOLO-V2跟YOLO-V1比起来都做了哪些改进？从速度优化和精确度优化的角度来看，主要有以下内容：

01

机器学习(25)之K-Means聚类算法详解

关键字全网搜索最新排名【机器学习算法】：排名第一【机器学习】：排名第一【Python】：排名第三【算法】：排名第四前言 K-Means算法是无监督的聚类算法，它实现起来比较简单，聚类效果也不错，因此应用很广泛。K-Means算法有大量的变体，本文就从最传统的K-Means算法讲起，在其基础上讲述K-Means的优化变体方法。包括初始化优化K-Means++, 距离计算优化elkan K-Means算法和大数据情况下的优化Mini Batch K-Means算法。 K-M原理 K-Means算法的思

08

基础聚类算法：K-means算法

一、算法简介：俗话说：“物以类聚，人以群分”，聚类算法不同于分类算法，对于一个分类器，通常需要你告诉它“这个东西被分为某某类”这样一些例子，理想情况下，一个分类器会从它得到的训练集中进行“学习”，从而具备对未知数据进行分类的能力，这种提供训练数据的过程通常叫做监督学习，而在聚类的时候，我们并不关心某一类是什么，我们需要实现的目标只是把相似的东西聚到一起，因此，一个聚类算法通常只需要知道如何计算相似度就可以开始工作了，因此聚类算法通常并不需要使用训练数据进行学习。以一句话来说明K-means算法的思路

05

Spark学习之基于MLlib的机器学习

本文介绍了Spark基于MLlib的机器学习，包括机器学习算法、数据类型、操作向量、算法、统计、分类和聚类等。同时，还介绍了主成分分析（PCA）、奇异值分解（SVD）等降维方法在Spark上的应用。

05

Scikit-Learn教程：棒球分析 (一)

一个scikit-learn教程，通过将数据建模到KMeans聚类模型和线性回归模型来预测MLB每赛季的胜利。

02

Python数据分析笔记：聚类算法之K均值

我们之前接触的所有机器学习算法都有一个共同特点，那就是分类器会接受2个向量：一个是训练样本的特征向量X，一个是样本实际所属的类型向量Y。由于训练数据必须指定其真实分类结果，因此这种机器学习统称为有监督学习。然而有时候，我们只有训练样本的特征，而对其类型一无所知。这种情况，我们只能让算法尝试在训练数据中寻找其内部的结构，试图将其类别挖掘出来。这种方式叫做无监督学习。由于这种方式通常是将样本中相似的样本聚集在一起，所以又叫聚类算法。下面我们介绍一个最常用的聚类算法：K均值聚类算法（K-Means）。 1、K

机器学习：无监督学习

Tips：如果出现某个聚类中心没有分配到点的情况，一般是直接将这个中心去掉，如果规定必须要刚好

04

机器学习20：聚类(k-means模型、高斯混合聚类模型）

在无监督学习中，训练样本的标记信息是未知的，目标是通过对无标记训练样本的学习来揭示数据内在的性质及规律，其中，应用最广的是聚类算法。

03

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭