开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

如何使用scikit-learn获取包含群集组的新pandas数据框列

scikit-learn是一个开源的机器学习库，提供了丰富的机器学习算法和工具，可以用于数据挖掘和数据分析。要使用scikit-learn获取包含群集组的新pandas数据框列，可以按照以下步骤进行操作：

导入所需的库和模块：

import pandas as pd
from sklearn.cluster import KMeans

准备数据集：首先，需要准备一个包含待处理数据的pandas数据框。假设数据框名为df，包含多个特征列。
数据预处理：如果数据集中包含缺失值或者需要进行特征工程处理，可以使用pandas库提供的函数进行数据清洗和转换。
特征选择：根据具体需求，选择需要用于聚类的特征列，并将其提取出来，组成一个新的数据框。
构建聚类模型：使用scikit-learn中的KMeans算法构建聚类模型。KMeans算法是一种常用的聚类算法，可以将数据集划分为指定数量的簇。

kmeans = KMeans(n_clusters=3)  # 设置簇的数量
kmeans.fit(df_selected_features)  # 对选定的特征列进行聚类

获取聚类结果：通过训练好的聚类模型，可以获取每个样本所属的簇标签。

cluster_labels = kmeans.labels_

将聚类结果添加到原始数据框：将获取到的聚类结果添加为一个新的列，可以使用pandas库提供的函数将其添加到原始数据框中。

df['cluster'] = cluster_labels

完成以上步骤后，就可以得到一个包含群集组的新pandas数据框列。其中，'cluster'列包含了每个样本所属的簇标签。

注意：以上步骤仅为一种常见的使用scikit-learn获取包含群集组的新pandas数据框列的方法，具体操作可能因数据集和需求的不同而有所差异。

推荐的腾讯云相关产品：腾讯云机器学习平台（https://cloud.tencent.com/product/tiia）提供了丰富的机器学习和数据处理服务，可以帮助用户进行数据挖掘和分析。

相关搜索:pandas groupby数据框列，如果组中存在特定值，则创建新列 Pandas:如何使用其他数据框的列替换数据框中的值使用其他数据框的列创建新的数据框向数据框添加新列，其中包含基于数据框年份的值如何从pandas向子数据框添加新列如何使用apply向pandas数据框添加新列如何使用Pandas数据框中的最新数据创建列如何使用数据框中的其他列聚合pandas数据框中的列如何创建包含行与列匹配和积的新数据框？如何在pandas数据框中创建新列

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

NumPy 秘籍中文第二版：十、Scikits 的乐趣

Scikits 是小型的独立项目，以某种方式与 SciPy 相关，但不属于 SciPy。这些项目不是完全独立的，而是作为一个联合体在伞下运行的。在本章中，我们将讨论几个 Scikits 项目，例如：

02

Scikit-Learn教程：棒球分析 (一)

一个scikit-learn教程，通过将数据建模到KMeans聚类模型和线性回归模型来预测MLB每赛季的胜利。

02

为什么说 Python 是数据科学的发动机(二)工具篇(附视频中字)

毋庸置疑，Python是用于数据分析的最佳编程语言，因为它的库在存储、操作和获取数据方面有出众的能力。在PyData Seattle 2017中，Jake Vanderplas介绍了Python的发展历程以及最新动态。在这里我们把内容分成上下两篇，在上篇给大家带来了Python的发展历程( 为什么说Python是数据科学的发动机(一)发展历程 )。下篇将给大家介绍Python中的一些重要工具。主讲人： Jake Vanderplas是华盛顿大学eScience研究所物理科学研究的负责人。该研究所负责跨

Python机器学习：Scikit-Learn教程

一个易于理解的scikit-learn教程，可以帮助您开始使用Python机器学习。

06

用scikit-learn开始机器学习

原文：https://www.raywenderlich.com/174-beginning-machine-learning-with-scikit-learn 作者： Mikael Konutgan 2018年2月12日·中级·文章·15分钟

01

AI开发最大升级：Pandas与Scikit-Learn合并，新工作流程更简单强大！

对于许多数据科学家来说，一个典型的工作流程是在Scikit-Learn进行机器学习之前，用Pandas进行探索性的数据分析。新版本的Scikit-Learn将会让这个过程变得更加简单、功能更加丰富、更鲁棒以及更加标准化。

03

KDnuggets 本月最受欢迎：5 个不容错过的机器学习项目

【新智元导读】受欢迎的机器学习项目很多，它们受欢迎的程度体现在在 GitHub 上获得的星数（Star）。新智元不久前介绍了 GitHub 上星数最多的16个深度学习应用项目，本文作者发掘了几个数据科学和机器学习被人错过的好项目。即使你不需要使用这些特定的工具，但检查它们的实现细节或项目的代码，可能带给你一些新的启发。 Hyperopt-sklearn Star：219 GitHub地址：https://github.com/hyperopt/hyperopt-sklearn Hyperopt-sklear

06

Python 数据科学手册 5.2 Scikit-Learn 简介

有几个 Python 库提供一系列机器学习算法的实现。最著名的是 Scikit-Learn，一个提供大量常见算法的高效版本的软件包。 Scikit-Learn 的特点是简洁，统一，流线型的 API，以及非常实用和完整的在线文档。这种一致性的好处是，一旦了解了 Scikit-Learn 中一种类型的模型的基本用法和语法，切换到新的模型或算法就非常简单。

01

Python常用数据分析模块原理解析

python是一门优秀的编程语言，而是python成为数据分析软件的是因为python强大的扩展模块。也就是这些python的扩展包让python可以做数据分析，主要包括numpy，scipy，pandas，matplotlib，scikit-learn等等诸多强大的模块，在结合上ipython交互工具，以及python强大的爬虫数据获取能力，字符串处理能力，让python成为完整的数据分析工具。

02

用sklearn流水线优化机器学习流程

在大多数机器学习项目中，你要处理的数据不大可能恰好是生成最优模型的理想格式。有很多数据变换的步骤例如分类变量编码、特征缩放和归一化需要执行。Scikit-learn的预处理模块中包含了内建的函数来支持这些常用的变换。

03

Pick 一下？Python 机器学习实用技巧

入门机器学习从来不是一件简单的事。除了成熟的 MOOC，网络上还有海量的免费资源，这里列举了一些曾经对我有帮助的资源：

03

数据预处理和挖掘究竟该怎么做？硅谷网红告诉你

Siraj Raval 作为深度学习领域的自媒体人在欧美可以说是无人不知、无人不晓。凭借在 Youtube 上的指导视频，Siraj Raval 在全世界吸粉无数，堪称是机器学习界的网红。说他是全球范围内影响力最大的 ML 自媒体人，怕也无异议。因此，AI 研习社联系到了 Siraj 本人，并获得授权将他最精华的 Youtube 视频进行字幕汉化，免费推送给大家。我们将不定期更新，敬请关注！雷锋字幕组为大家最新译制了 Siraj 深度学习系列，从机器学习和神经网络架构类型到数据可视化、小样本学习等从

05

没有数据就自己造数据

学习了一段时间的机器学习发现除了各种算法原理的公式推导比较麻烦之外，没有数据也是很痛苦，在训练各种算法模型的时候，一个良好的数据集就已经成功一大半了，那么剩下的就是调参优化。那么问题来了，不是任何时候我们都有一个现成的数据集可用，公共的数据集毕竟有限，如果自己去采集数据那么同样很烦，这是我们就要考虑自动生成数据集了。除了随机生成数据这种简单的方法之外，目前机器学习算法领域有各种函数库可以让我们调用，编程的难度不大，所以今天给大家介绍几个自动生成数据的Python库。

02

干货收藏！一文看懂8个常用Python库从安装到应用

导读：Python本身的数据分析功能并不强，需要安装一些第三方扩展库来增强其相应的功能。本文将对NumPy、SciPy、Matplotlib、pandas、StatsModels、scikit-learn、Keras、Gensim等库的安装和使用进行简单的介绍。

02

Python数据挖掘指南

转载原文：https://www.springboard.com/blog/data-mining-python-tutorial/（全英）

00

开发 | 数据预处理和挖掘究竟该怎么做？硅谷网红告诉你

Siraj Raval 作为深度学习领域的自媒体人在欧美可以说是无人不知、无人不晓。凭借在 Youtube 上的指导视频，Siraj Raval 在全世界吸粉无数，堪称是机器学习界的网红。说他是全球范围内影响力最大的 ML 自媒体人，怕也无异议。因此，AI 研习社联系到了 Siraj 本人，并获得授权将他最精华的 Youtube 视频进行字幕汉化，免费推送给大家。我们将不定期更新，敬请关注！雷锋字幕组为大家最新译制了 Siraj 深度学习系列，从机器学习和神经网络架构类型到数据可视化、小样本学习等从

[访谈] Olivier Grisel谈scikit-learn和机器学习技术的未来

几周前，我们的Florian Douetteau (FD)对Olivier Grisel(OG)进行了一次访谈，正好我得到这个机会去旁听。Olivier是scikit-learn机器学习库的主要贡献者

06

Python数据分析常用模块的介绍与使用

在当今数字化时代，数据分析已经变得不可或缺。而Python，作为一种通用编程语言，其丰富的库和强大的功能使得它成为数据分析领域的佼佼者。Python数据分析模块，正是这一领域的核心组成部分，为数据科学家和工程师提供了强大的武器库。

01

scikit-learn 1.0 版本重要新特性一览

就在几天前，著名的机器学习框架scikit-learn在pypi上释放了其1.0rc1版本，这里给大家科普一下，版本号中的rc是Release Candidate的简称，代表当前的版本是一个候选发布版本，一旦到了这个阶段，scikit-learn对于1.0版本的开发设计就基本上不会再新增功能，而是全力投入到查缺补漏的测试中去也就意味着：

03

[访谈] Olivier Grisel谈scikit-learn和机器学习技术的未来

几周前，我们的Florian Douetteau (FD)对Olivier Grisel(OG)进行了一次访谈，正好我得到这个机会去旁听。Olivier是scikit-learn机器学习库的主要贡献者，因此他们两个详细地讨论了Olivier的工作和其它技术的发展。这是采访的第一部分。 Olivier Grisel 和 scikit-learn FD：Olivier，你作为scikit-learn的主要贡献者已经有一段时间了。你可以告诉我们一些关于你的贡献么？ OG：大概是2010年，我就开始做scikit-

03

【Python环境】Olivier Grisel谈scikit-learn和机器学习技术的未来

几周前，我们的Florian Douetteau (FD)对Olivier Grisel(OG)进行了一次访谈，正好我得到这个机会去旁听。Olivier是scikit-learn机器学习库的主要贡献者，因此他们两个详细地讨论了Olivier的工作和其它技术的发展。这是采访的第一部分。 Olivier Grisel 和 scikit-learn FD：Olivier，你作为scikit-learn的主要贡献者已经有一段时间了。你可以告诉我们一些关于你的贡献么？ OG：大概是2010年，我就开始做scikit-

09

Python数据分析库介绍及引入惯例

NumPy（Numerical Python的简称）是Python科学计算的基础包。

03

常用聚类算法

聚类分析，即聚类，是一项无监督的机器学习任务。它包括自动发现数据中的自然分组。与监督学习（类似预测建模）不同，聚类算法只解释输入数据，并在特征空间中找到自然组或群集。

02

Python机器学习·微教程

所以这个教程既不是python入门，也不是机器学习入门。而是引导你从一个机器学习初级开发者，到能够基于python生态开展机器学习项目的专业开发者。

02

什么是机器学习中类别数据的转换？

数据预处理一直机器学习项目中最耗时间的工作，我们常常会遇到一些非数值数据，比如城市建筑物的商用类别、餐馆的菜系类别、手机中app的用途类别等等，这些数据并没有数值含义，无大小之分，仅仅是分类不同。

02

小白入门机器学习必备：编程语言环境介绍及搭建

导读：工欲善其事，必先利其器，机器学习也不例外。算法原理理解得再清楚，最终也需要通过编写代码来真正实现功能和解决问题。

01

太强了，10种聚类算法完整Python实现！

来源：海豚数据科学实验室转自：数据分析1480 今天给大家分享一篇关于聚类的文章，10种聚类介绍和Python代码。聚类或聚类分析是无监督学习问题。它通常被用作数据分析技术，用于发现数据中的有趣模式，例如基于其行为的客户群。有许多聚类算法可供选择，对于所有情况，没有单一的最佳聚类算法。相反，最好探索一系列聚类算法以及每种算法的不同配置。在本教程中，你将发现如何在 python 中安装和使用顶级聚类算法。完成本教程后，你将知道：聚类是在输入数据的特征空间中查找自然组的无监督问题。对于所有数据集，有

01

10 种聚类算法的完整 Python 操作示例

来源：海豚数据科学实验室本文约7000字，建议阅读14分钟本文将介绍一篇关于聚类的文章，10种聚类介绍和Python代码。聚类或聚类分析是无监督学习问题。它通常被用作数据分析技术，用于发现数据中的有趣模式，例如基于其行为的客户群。有许多聚类算法可供选择，对于所有情况，没有单一的最佳聚类算法。相反，最好探索一系列聚类算法以及每种算法的不同配置。在本教程中，你将发现如何在 python 中安装和使用顶级聚类算法。完成本教程后，你将知道：聚类是在输入数据的特征空间中查找自然组的无监督问题。对于所有数据集，

02

10种聚类算法的完整python操作实例

聚类或聚类分析是无监督学习问题。它通常被用作数据分析技术，用于发现数据中的有趣模式，例如基于其行为的客户群。有许多聚类算法可供选择，对于所有情况，没有单一的最佳聚类算法。相反，最好探索一系列聚类算法以及每种算法的不同配置。在本教程中，你将发现如何在 python 中安装和使用顶级聚类算法。

02

【Python环境】scikit-learn的线性回归模型

内容概要如何使用pandas读入数据如何使用seaborn进行数据的可视化 scikit-learn的线性回归模型和使用方法线性回归模型的评估测度特征选择的方法作为有监督学习，分类问题是预测类别结果，而回归问题是预测一个连续的结果。 1. 使用pandas来读取数据 Pandas是一个用于数据探索、数据处理、数据分析的Python库 In [1]: import pandas as pd In [2]: # read csv file directly from a URL and save th

09

10大机器学习聚类算法实现（Python）

分享一篇关于聚类的文章：10种聚类算法和Python代码。文末提供jupyter notebook的完整代码获取方式。

02

入门 | 机器学习第一课：决策树学习概述与实现

选自HEARTBEAT 作者：Ishan Sharma 机器之心编译基于树的学习算法在数据科学竞赛中相当常见。这些算法给预测模型赋予了准确性、稳定性以及易解释性。其中，决策树算法也是引人关注的「随机

03

10种聚类算法及python实现

最近看到一篇介绍聚类算法的文章（来自海豚数据科学实验室），总结了10种聚类算法及Python实现

03

机器学习特性缩放的介绍，什么时候为什么使用

在这篇文章中，我们将讨论什么是特征缩放以及为什么我们在机器学习中需要特征缩放。我们还将讨论数据的标准化，以及使用scikit-learn实现同样的标准化。

02

用scikit-learn和pandas学习线性回归，XGboost算法实例，用MSE评估模型

对于想深入了解线性回归的童鞋，这里给出一个完整的例子，详细学完这个例子，对用scikit-learn来运行线性回归，评估模型不会有什么问题了。

02

用机器学习来预测天气Part 2

这篇文章我们接着前一篇文章，使用Weather Underground网站获取到的数据，来继续探讨用机器学习的方法预测内布拉斯加州林肯市的天气。上一篇文章我们已经探讨了如何收集、整理、清洗数据。这篇文章我们将使用上一篇文章处理好的数据，建立线性回归模型来预测天气。为了建立线性回归模型，我要用到python里非常重要的两个机器学习相关的库：Scikit-Learn和StatsModels 。第三篇文章我们将使用google TensorFlow来建立神经网络模型，并把预测的结果和线性回归模型的结果做比较。这篇文章中会有很多数学概念和名词，如果你理解起来比较费劲，建议你先google相关数据概念，有个基础的了解。

06

为什么说 Python 是数据科学的发动机(一)发展历程(附视频中字)

毋庸置疑，Python是用于数据分析的最佳编程语言，因为它的库在存储、操作和获取数据方面有出众的能力。在PyData Seattle 2017中，Jake Vanderplas介绍了Python的发展历程以及最新动态。在这里我们把内容分成上下两篇，先给大家带来上篇--Python的发展历程。主讲人： Jake Vanderplas是华盛顿大学eScience研究所物理科学研究的负责人。该研究所负责跨学科项目，旨在支持科学领域在数据方面发现。Jake的研究领域包括天文学、天体物理学、机器学习以及可伸缩计算

06

数据大师Olivier Grisel给志向高远的数据科学家的指引

原文：http://www.dataiku.com/blog/2015/09/28/interview-grisel-part1.html 译文：http://www.csdn.net/article/2015-10-11/2825882 （编译/刘帝伟审校/朱正贵、赵屹华责编/周建丁）译者简介：刘帝伟，中南大学软件学院在读研究生，关注机器学习、数据挖掘及生物信息领域。 Olivier Grisel(OG)本人在InriaParietal工作，主要研发scikit-learn，使用Python语言编

04

【数据分析从入门到“入坑“系列】利用Python学习数据分析-准备工作

本系列讲的是利用Python进行数据控制、处理、整理、分析等方面的具体细节和基本要点。我的目标是介绍Python编程和用于数据处理的库和工具环境，掌握这些，可以让你成为一个数据分析专家。虽然本系列的标题是“数据分析”，重点却是Python编程、库，以及用于数据分析的工具。这就是数据分析要用到的Python编程。

02

python中使用scikit-learn和pandas决策树进行iris鸢尾花数据分类建模和交叉验证

在这篇文章中，我将使用python中的决策树（用于分类）。重点将放在基础知识和对最终决策树的理解上。

00

用scikit-learn和pandas学习线性回归

对于想深入了解线性回归的童鞋，这里给出一个完整的例子，详细学完这个例子，对用scikit-learn来运行线性回归，评估模型不会有什么问题了。 1. 获取数据，定义问题　　　　没有数据，当然没法研究机器学习啦。:) 这里我们用UCI大学公开的机器学习数据来跑线性回归。　　　　数据的介绍在这： http://archive.ics.uci.edu/ml/datasets/Combined+Cycle+Power+Plant 　　　　数据的下载地址在这： http://archive.ics.u

05

如何在 GPU 上加速数据科学

我们认为使用大型模型架构和相同数据在XLNet 和BERT之间进行公平的比较研究具有重要的科学价值。

02

《python数据分析与挖掘实战》笔记第2章

python有4个内建的数据结构–list（列表）、tuple（元组）、dictionary（字典）以及set（集合），它们可以统称为容器。

01

数据岗面试：常用哪些Python第三方库？

当下，数据从业者大多需要掌握Python语言，更准确的说要学会使用Python提供的一些主流第三方库。考虑眼下正值金三银四的找工作最佳时机，现将个人曾经历过的一道面试真题做以分享，具有一定的代表性。

02

数据科学家的工具箱教程

非常实用，不扯任何理论概念不包含python基础教程，numpy pandas等常见已经中文化很好的部分知识。

04

Scikit-Learn的简介：Python机器学习库

如果你是一名Python程序员，或者你正在寻找一个强大的库，可以将机器学习运用到实际系统中，那么你要认真考虑一下scikit-learn。

07

如何在 GPU 上加速数据科学

数据科学家需要算力。无论您是用 pandas 处理一个大数据集，还是用 Numpy 在一个大矩阵上运行一些计算，您都需要一台强大的机器，以便在合理的时间内完成这项工作。

02

从 R 迁移到 Python 过程中你需要知道的几个软件库

为什么要用 Python 呢？我喜欢用 Python 来处理机器学习问题的一个重要原因是 Python 吸取了 R 社区的优点，同时还将其进行了优化打包。我一直认为编程语言的能力取决于它的软件库，因此本文将着重介绍我经常使用的一些关于机器学习算法的 R 包和 Python 中的替代包。 glm, knn, randomForest, e1071 -> scikit-learn R 语言的一个缺点是每个机器学习算法都有一个相应的软件包，这大大提升了用户的学习成本。Python 中的scikit-le

07

已经14年的Scikit-Learn终于1.0了，发布第一个主要版本的意义是什么？

距Scikit-Learn第一版发布已经有14年了，经历了24个beta版本，2021年9月它终于发布了1.0版本。Scikit-Learn已经被数千家公司、数据科学家、研究人员使用了很长一段时间，每个人都认为它是通用机器学习最广泛的框架。但是它刚刚才发布了1.0版，这听起来是不是很令人诧异。

05

手把手带你开启机器学习之路——房价预测(一)

本文我们使用加州住房价格数据集，从零开始，一步一步建立模型，预测每个区域的房价中位数。目的是完整实现一个机器学习的流程。

03

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭