在使用sklearn模型转换用于训练和预测的数据时，如何确保所有数据都是相同的数字？ - 腾讯云开发者社区

您找到你想要的搜索结果了吗？

是的

没有找到

盘一盘 Python 系列 8 - Sklearn

有监督的机器学习模型——鸟类分类系统

一个简单的“鸟类分类系统”作为切入点，介绍了机器学习算法中常用到的基本术语。这个系统用到的鸟物种分类表如下：

如何确保机器学习最重要的起始步骤"特征工程"的步骤一致性？

关于特征工程，业界有这么一句话：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限。

[机器学习|理论&实践]机器学习中的监督学习详解与应用

监督学习作为机器学习领域中最为广泛应用的范式之一，扮演着至关重要的角色。它的核心思想是通过给模型提供带有标签的训练数据，让模型学会输入和输出之间的映射关系。本文将深入探讨监督学习的基础概念、主要任务以及几种常见的监督学习算法，并通过一个实际应用案例，展示监督学习在解决现实问题中的应用。

UdaCity-机器学习工程师-项目2:为CharityML寻找捐献者

在这个入门项目中，我们将探索部分泰坦尼克号旅客名单，来确定哪些特征可以最好地预测一个人是否会生还。

011

数据预处理 | 数据标准化及归一化

数据预处理时才发现不清楚是否需要做数据标准化及归一化？也不清楚标准化及归一化标准化及归一化区别在哪？有哪些标准化和归一化的工具和方法？

10分钟掌握Python-机器学习小项目

而且，Python 还有很多模块和程序库供我们选择，从而针对一个任务能有很多个解决方案。怎么样，听起来还是很厉害的吧？

非常详细的sklearn介绍

Scikit-Learn 和大模型 LLM 强强联手！

我们以前介绍Pandas和ChaGPT整合，这样可以不了解Pandas的情况下对DataFrame进行操作。比如pandas-ai的出现：

不要太强！全面总结 KNN ！！

今儿准备了 KNN 的文章给到大家，因为后台很多人问到了关于KNN相关的内容细节！

用scikit-learn开始机器学习

原文：https://www.raywenderlich.com/174-beginning-machine-learning-with-scikit-learn 作者： Mikael Konutgan 2018年2月12日·中级·文章·15分钟

数据科学和人工智能技术笔记十一、线性回归

表示两者之间的交互。使用 scikit-learn 的PolynomialFeatures，来为所有特征组合创建交互术项会很有用。然后，我们可以使用模型选择策略，来识别产生最佳模型的特征和交互项的组合。

建立脑影像机器学习模型的step-by-step教程

机器学习的日益普及导致了一些工具的开发，旨在使这种方法的应用易于机器学习新手。这些努力已经产生了PRoNTo和NeuroMiner这样的工具，这并不需要任何编程技能。然而，尽管这些工具可能非常有用，但它们的简单性是以透明度和灵活性为代价的。学习如何编程一个机器学习管道(即使是一个简单的)是一个很好的方式来洞察这种分析方法的优势，以及沿着机器学习管道可能发生的扭曲。此外，它还允许更大的灵活性，如使用任何机器学习算法或感兴趣的数据模式。尽管学习如何为机器学习管道编程有明显的好处，但许多研究人员发现这样做很有挑战性，而且不知道如何着手。

使用 scikit-learn 的 train_test_split() 拆分数据集

监督机器学习的关键方面之一是模型评估和验证。当您评估模型的预测性能时，过程必须保持公正。使用train_test_split()数据科学库scikit-learn，您可以将数据集拆分为子集，从而最大限度地减少评估和验证过程中出现偏差的可能性。

机器学习两大利器：Boosting 与 AdaBoost

最近，技术在 Kaggle 竞赛以及其它预测分析任务中大行其道。本文将尽可能详细地介绍有关 Boosting 和的相关概念。

精通 Sklearn 和 TensorFlow 预测性分析：1~5 全

商业企业广泛使用高级分析工具，以解决使用数据的问题。分析工具的目的是分析数据并提取相关信息，这些信息可用于解决问题或提高业务某些方面的表现。它还涉及各种机器学习算法，通过这些算法我们可以创建预测模型以获得更好的结果。

机器学习中最最好用的提升方法：Boosting 与 AdaBoost

最近，Boosting 技术在 Kaggle 竞赛以及其它预测分析任务中大行其道。本文将尽可能详细地介绍有关 Boosting 和 AdaBoost 的相关概念。

《Scikit-Learn与TensorFlow机器学习实用指南》第2章一个完整的机器学习项目

第2章一个完整的机器学习项目来源：ApacheCN《Sklearn 与 TensorFlow 机器学习实用指南》翻译项目译者：@SeanCheney 校对：@Lisanaaa @飞龙本章中，你会假装作为被一家地产公司刚刚雇佣的数据科学家，完整地学习一个案例项目。下面是主要步骤：项目概述。获取数据。发现并可视化数据，发现规律。为机器学习算法准备数据。选择模型，进行训练。微调模型。给出解决方案。部署、监控、维护系统。使用真实数据学习机器学习时，最好使用真实数据，而不是人工数

021

解决sklearn.exceptions.NotFittedError: This StandardScaler instance is not fitted

在使用scikit-learn中的StandardScaler进行数据预处理时，有时会遇到NotFittedError错误。这个错误是由于没有对StandardScaler进行适当的拟合导致的。本篇文章将介绍如何解决这个问题。

【机器学习】逻辑回归算法：原理、精确率、召回率、实例应用(癌症病例预测)

逻辑回归，简称LR，它的特点是能够将我们的特征输入集合转化为0和1这两类的概率。一般来说，回归不用在分类问题上，但逻辑回归却能在二分类(即分成两类问题)上表现很好。

数值数据的特征工程

数据馈送机器学习模型，越多越好，对吗？好吧，有时数字数据不太适合提取，因此，本文将介绍多种方法，可以将原始数字转换为更可口的东西。

基于Python的Tensorflow卫星数据分类神经网络

深度学习已经占据了解决复杂问题的大多数领域，地理空间领域也不例外。文章的标题让您感兴趣，因此希望熟悉卫星数据集 ; 目前，Landsat 5 TM。机器学习（ML）算法如何工作的知识很少，将帮助快速掌握这本动手教程。对于那些不熟悉ML概念的人，简而言之，它是建立一个实体的一些特征（特征或X）与其他属性（值或标签或Y）之间的关系 - 提供了大量的例子（标记数据））到模型，以便从中学习，然后预测新数据（未标记数据）的值/标签。这对于机器学习来说已经足够理论了！

《Scikit-Learn与TensorFlow机器学习实用指南》第2章一个完整的机器学习项目使用真实数据项目概览获取数据数据探索和可视化、发现规律为机器学习算法准备数据选择并训练模型模型微调启动

本章中，你会假装作为被一家地产公司刚刚雇佣的数据科学家，完整地学习一个案例项目。下面是主要步骤：项目概述。获取数据。发现并可视化数据，发现规律。为机器学习算法准备数据。选择模型，进行训练。微调模型。给出解决方案。部署、监控、维护系统。使用真实数据学习机器学习时，最好使用真实数据，而不是人工数据集。幸运的是，有上千个开源数据集可以进行选择，涵盖多个领域。以下是一些可以查找的数据的地方：流行的开源数据仓库： UC Irvine Machine Learning Repository K

015

模型评估、过拟合欠拟合以及超参数调优方法

上一篇文章介绍了性能评估标准，但如何进行模型评估呢，如何对数据集进行划分出训练集、验证集和测试集呢？如何应对可能的过拟合和欠拟合问题，还有超参数的调优，如何更好更快找到最优的参数呢？

30 个数据工程必备的Python 包

Python 可以说是最容易入门的编程语言，在numpy，scipy等基础包的帮助下，对于数据的处理和机器学习来说Python可以说是目前最好的语言，在各位大佬和热心贡献者的帮助下Python拥有一个庞大的社区支持技术发展，开发两个各种 Python 包来帮助数据人员的工作。

算法模型自动超参数优化方法！

学习器模型中一般有两类参数，一类是可以从数据中学习估计得到，我们称为参数（Parameter）。还有一类参数时无法从数据中估计，只能靠人的经验进行设计指定，我们称为超参数（Hyper parameter）。超参数是在开始学习过程之前设置值的参数。相反，其他参数的值通过训练得出。

MLSQL解决了什么问题

MLSQL提供了一套SQL的超集的DSL语法MLSQL，数据处理，模型训练，模型预测部署等都是以MLSQL语言交互，该语言简单易懂，无论算法，分析师，甚至运营都能看懂，极大的减少了团队的沟通成本，同时也使得更多的人可以做算法方面的工作。

机器学习实战第3天：手写数字识别

使用train_test_split函数将数据集分为训练集和测试集，测试集比例为0.2

《Scikit-Learn与TensorFlow机器学习实用指南》第3章分类

第3章分类来源：ApacheCN《Sklearn 与 TensorFlow 机器学习实用指南》翻译项目译者：@时间魔术师校对：@Lisanaaa @飞龙在第一章我们提到过最常用的监督学习任务是回归（用于预测某个值）和分类（预测某个类别）。在第二章我们探索了一个回归任务：预测房价。我们使用了多种算法，诸如线性回归，决策树，和随机森林（这个将会在后面的章节更详细地讨论）。现在我们将我们的注意力转到分类任务上。 MNIST 在本章当中，我们将会使用 MNIST 这个数据集，它有着 70000

特征工程需要干什么？

首先分析得到的数据是结构化数据还是非结构化数据，通常我们分析的是结构化数据，即表格形式的；对于非结构化数据，需要对其进行清洗和组织。

《Scikit-Learn与TensorFlow机器学习实用指南》第5章支持向量机

第5章支持向量机来源：ApacheCN《Sklearn 与 TensorFlow 机器学习实用指南》翻译项目译者：@QiaoXie 校对：@飞龙支持向量机（SVM）是个非常强大并且有多种功能的机器学习模型，能够做线性或者非线性的分类，回归，甚至异常值检测。机器学习领域中最为流行的模型之一，是任何学习机器学习的人必备的工具。SVM 特别适合复杂的分类，而中小型的数据集分类中很少用到。本章节将阐述支持向量机的核心概念，怎么使用这个强大的模型，以及它是如何工作的。线性支持向量机分类 SV

如何在Kaggle上打比赛，带你进行一次完整流程体验

Kaggle是最著名的机器学习竞赛网站。Kaggle竞赛由一个数据集组成，该数据集可以从网站上获得，需要使用机器、深度学习或其他数据科学技术来解决问题。一旦你发现了一个解决方案，你就可以把你的模型结果上传到网站上，然后网站根据你的结果对你进行排名。如果你的结果可以击败其他参赛选手，那么你可能获得现金奖励。

万字案例 | 用Python建立客户流失预测模型（含源数据+代码）

客户流失是所有与消费者挂钩行业都会关注的点。因为发展一个新客户是需要一定成本的，一旦客户流失，成本浪费不说，挽回一个客户的成本更大。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐