当单热编码训练和测试数据时，形状不匹配。将Test_data与管道一起使用时，Train_Data比get_dummies具有更多的虚列

当单热编码训练和测试数据时，形状不匹配是因为训练数据和测试数据在某些特征上的取值范围不一致，导致编码后的特征维度不同。解决这个问题的方法是使用管道（Pipeline）来进行数据预处理和模型训练。

管道是一种将多个数据处理步骤组合在一起的工具，可以按照指定的顺序依次对数据进行处理。在这个问题中，可以使用管道来对训练数据和测试数据进行统一的特征编码。

首先，需要将训练数据和测试数据分别进行单热编码。单热编码是一种将离散特征转换为二进制向量的方法，将每个可能的取值都表示为一个新的特征。可以使用pandas库的get_dummies函数来进行单热编码。

然后，可以使用管道将单热编码的步骤和模型训练的步骤组合在一起。管道可以使用scikit-learn库的Pipeline类来创建，可以按照指定的顺序依次对数据进行处理。

在管道中，首先进行单热编码的步骤可以使用pandas库的get_dummies函数来实现。然后，可以使用scikit-learn库的其他预处理方法（如标准化、归一化等）对数据进行进一步处理。最后，可以使用scikit-learn库的模型训练方法（如逻辑回归、支持向量机等）对数据进行训练。

相比于直接使用get_dummies函数，使用管道的好处是可以将数据预处理和模型训练的步骤组合在一起，方便进行统一的处理和管理。此外，使用管道还可以避免在训练数据和测试数据上重复进行数据预处理的问题。

对于腾讯云相关产品和产品介绍链接地址，可以参考以下内容：

腾讯云产品：腾讯云提供了丰富的云计算产品，包括云服务器、云数据库、云存储等。具体产品介绍可以参考腾讯云官方网站：https://cloud.tencent.com/product
腾讯云人工智能：腾讯云提供了人工智能相关的产品和服务，包括人脸识别、语音识别、自然语言处理等。具体产品介绍可以参考腾讯云人工智能官方网站：https://cloud.tencent.com/product/ai
腾讯云物联网：腾讯云提供了物联网相关的产品和服务，包括物联网平台、物联网设备接入等。具体产品介绍可以参考腾讯云物联网官方网站：https://cloud.tencent.com/product/iot

请注意，以上链接仅供参考，具体的产品选择和推荐应根据实际需求和情况进行。

页面内容是否对你有帮助？

有帮助

没帮助

使用mqtt用户名与密码的方式连接腾讯云mqtt服务器问题？

、、、

为什么用mqtt用户名与密码的方法连接腾讯云mqtt服务器后，一段时间(几天)不连接后会自动断开？然后在使用相同的用户名与密码再次连接时就再也连接不上了。操作方法： 1. 使用了腾讯给的腾讯云物联网平台生成小工具自动生成用户名与密码 2. 使用MQTT.fx工具连接或者其他设备连接腾讯云mqtt服务器结果：使用原先同样的用户名与密码，在断开与腾讯云mqtt服务器一段时间(一般几天)后就再也无法使用相同的用户与密码连接到mqtt云服务器了

浏览 1472提问于2021-02-17

8回答

物联网、大数据、云计算、人工智能之间有什么关系？

物联网、大数据、云计算、人工智能之间的关系如何？大数据、云计算，人工智能的发展，对物联网会有哪些帮助？

浏览 2534提问于2018-04-12

4回答

可能的方法来做一个热编码在科学工具-学习？

、、

我有一个熊猫数据框架和一些分类栏。其中一些包含非整数值。目前，我想对这些数据应用几种机器学习模型。为了取得更好的效果，对某些模型进行规范化是必要的。例如，将分类变量转换为虚拟/指示变量。事实上，熊猫有一个名为get_dummies的功能。但是，此函数将根据数据返回结果。因此，如果我在训练数据上调用get_dummies，然后在测试数据上再次调用它，那么在两种情况下实现的列可能是不同的，因为测试数据中的分类列可能只包含一个子集/与训练数据中可能值的不同集合。因此，我正在寻找其他方法来做一个热编码。在蟒蛇(熊猫/滑雪)中做一个热编码的可能方法是什么？

浏览 9提问于2015-12-09得票数 6

回答已采纳

2回答

是否可以使用保存的xgboost模型(具有一种热编码功能)对未见数据(没有一种热编码)进行预测？

、、

我认为这个问题是不言而喻的。但是，假设您有一些带有分类数据的特性的数据，并且在构建模型时(例如，XGBoost )，您可以使用一个热编码的分类特性。现在，您希望使用保存的模型根据测试数据进行预测。显然，测试数据需要一次热编码，并且需要具有与训练集相似的特性。问题是，是否有可能找到一种方法，而不是一种热编码测试数据，并直接使用它进行预测？这有可能吗？在我看来，无论在我保存的模型中出现了什么，都需要像在训练期间使用的那样，即一个热编码特性！但是这并不整洁，尤其是在构建小部件和仪表板时！如有任何评论或提示，敬请见谅。

浏览 0提问于2018-01-18得票数 1

回答已采纳

2回答

Scikit-Learn:避免交叉验证期间的数据泄漏

、、

我刚刚阅读了k-折交叉验证，并意识到我在当前的预处理设置中无意中泄漏了数据。通常，我有一个训练和测试数据集。我在我的整个训练数据集上进行了一系列数据推算和one-hot编码，然后运行k折交叉验证。泄漏是因为，如果我进行5次交叉验证，我将在80%的训练数据上进行训练，并在剩余的20%的训练数据上进行测试。我真的应该根据80%的训练来推算这20% (而我之前使用的是100%的数据)。 1)这是考虑交叉验证的正确方式吗？ 2)我一直在研究sklearn.pipeline中的Pipeline类，它似乎对执行一系列转换，然后最终将模型拟合到结果数据很有用。然而，我正在做一系列的事情，比如“用均值来

浏览 9提问于2018-01-28得票数 11

5回答

微信小程序人脸与身份证照片对比登录,后端做什么？

、

微信小程序前端和后端分别要做些什么 ? 所有需要的东西有哪些 ? (请尽量详细点) 标题：人脸识别 - 智能图像服务 - 产品文档 - 帮助与文档 - 腾讯云地址：https://cloud.tencent.com/document/product/641/12397

浏览 2460提问于2018-01-24

4回答

TBDS是否支持实时数据接入、国产数据库接入？

、、、、

腾讯云文档中没有关于TBDS数据接入组件的说明，TBDS都支持哪些数据来源？是否支持工业物联网设备实时数据采集？是否支持如达梦、翰高等国产数据库？另外机器学习平台DI-X也没有相关文档支持。 [附加信息]

浏览 679提问于2018-04-08

6回答

腾讯云是如何推动轨道交通智能化升级的？

近日，神州高铁与腾讯云计算有限责任公司签署了《框架合作协议书》。双方一致同意建立长期合作伙伴关系，充分发挥各自优势，共同推动互联网、大数据、云计算、物联网、人工智能等在轨道交通产业领域的应用。

浏览 1387提问于2018-07-24

9回答

腾讯云时序数据库 CTSDB VS 传统时序数据库？

、

很多公司已经开始持续收集、分析数据，用于异常处理、趋势预测、精准营销、风险控制等场景，希望利用数据的潜在价值，提高公司盈利能力和竞争力。那么腾讯云时序数据库 CTSDB VS 传统时序数据库，腾讯云时序数据库有没有什么进步？

浏览 1732提问于2018-09-26

1回答

如何度量范畴变量与连续变量之间的相关性

、、、、

我在我的数据集中有以下分类变量的名称： categorical_columns = ['MSSubClass', 'MSZoning', 'LotShape', 'LandContour', 'LotConfig', 'Neighborhood', 'Condition1', 'Condition2', 'BldgType', 'HouseStyle', 'RoofStyle'

浏览 0提问于2019-07-09得票数 1

回答已采纳

1回答

Sklearn回归问题

我尝试用一个回归模型拟合数据矩阵X到输出向量y。我有一些训练数据和一些测试数据，其中的分数是RMSE。因此，我在SVR，内核'poly‘和调高参数'C'，’度‘和’伽马‘时取得了最好的成绩，并且具有高效性和交叉验证性。实际上，我不知道如何取得更好的成绩，所以我在这个论坛上请求另一种方法。我已经尝试过KernelRidge、线性回归、SVR和其他核函数、神经网络，但它们都给出了更差的结果。实际上可以做得更好，因为其他人在这项任务中做得更好，但我不知道我能做些什么来提高分数。有什么想法吗？

浏览 0提问于2017-03-28得票数 -1

1回答

利用图像和外部数据集进行二进制分类

、

我目前有一个项目，在这个项目中，我必须创建一个二进制分类器来检测缺陷产品。我有已经被标记的图像数据(每个部分都被标记为通过或失败)，以及一个外部数据集，该数据集对每一幅图像都有特定的测量值(它包含摄像机无法准确捕获的参数，例如温度、特定片段的长度等)。通过应用基本的分类算法，例如logistic回归和支持向量机(在scikit-learn中)，我已经获得了相当高的精度，但我希望将图像数据合并起来以提高准确性。我读过关于训练CNN图像的文章，但是我不知道如何整合外部数据集来训练模型(事实上，我甚至不知道这是否可能)。是否有任何方法同时使用图像数据以及外部数据集来对这些图像进行分类？任何帮助都是非

浏览 0提问于2020-07-24得票数 1

回答已采纳

3回答

一次热编码与缺失类别

、、

我有一个包含类别列的数据集。为了使用线性回归，I-1对此列进行了编码. 我的集有10列，包括类别列。在删除该列并追加1-热编码矩阵后，我将得到14列(10-1+ 5)。所以我用形状矩阵(n，14)训练(拟合)我的LinearRegression模型。在训练它之后，我想在训练集的子集上测试它，所以我只先取5，然后将它们放在相同的管道中。但这5种首先只包含了3种类型。因此，在穿过管道后，我只剩下一个形状矩阵(n，13)，因为它缺少两个类别。如何强制1-热编码器使用这5类？我用的是滑雪的LabelBinarizer。

浏览 2提问于2018-02-20得票数 5

回答已采纳

1回答

列车验证和测试集(生产数据)中的一个热点编码

、、、、

例如，我有下面的火车。 name values 0 Tony 100 1 Smith 110 2 Sam 120 3 Shane 130 4 Sam 140 5 Ram 160 经过一次热编码后，它变成 values 0 1 2 3 4 0 100 1 0 0 0 0 1 110 0 1 0 0 0 2 120 0 0 1 0 0 3 130

浏览 2提问于2021-04-01得票数 3

回答已采纳

2回答

标准标度对真实数据的均值和标准差？

、、、

我听说，我们应该使用训练数据集的规模作为测试数据的规模，因此它们在规模上是一致的。我知道我们使用transform()函数对测试数据进行预处理。但是，我想知道在成功地保存和加载模型之后，如何将相同的逻辑应用于实际的数据集，因为我认为我们不能再使用transform()函数了。据我所知，在使用我们已经保存的模型时，必须有一种方法“提取”列车数据集的均值和标准差，并将其应用于实际生活模型，但我们如何做到这一点呢？

浏览 0提问于2020-12-27得票数 0

2回答

RNN:具有分类变量的每个时间步骤的多个输入

、、

我试图建立一个RNN模型来预测几个不同城市和不同产品部门的日销售额(每天的分类特征和多个输入)，以及诸如流量、温度等数值特征(每天的单输入)。如何使用这些特性构建模型。我试图将编码(Label编码器)标记为分类特征，并试图连续地训练/更新一个RNN模型，并将每个城市的产品段数据的时间序列提供给它，但最终得到了巨大的预测误差。是否有一种方法可以对分类特性进行热编码，如果我确实使用了一种热编码，该如何实现(输出维数是多少)？

浏览 0提问于2020-06-04得票数 0

1回答

GATE工具中的机器学习

、、

在使用GATE工具对训练数据运行机器学习算法(SVM)后，我想在测试数据上对其进行测试。我的问题是，我是否应该使用相同的训练数据进行测试，同时，模型如何从测试数据中提取实体，而测试数据没有使用训练数据中学习到的注释进行注释。我遵循了这个链接上的教程，但在最后，当它谈到将数据集拆分为训练和测试时，它有点令人困惑。

浏览 2提问于2014-08-28得票数 0

1回答

关于一个热编码的两个问题:先放下？和成千上万个类别的特性

、、

关于一个热门的特性编码，我有两个问题： (1)当一次热编码时，删除第一个(或至少一个)热编码特性是否被认为是一种“最佳做法”，就像在经典统计中创建用于线性回归建模的虚拟变量一样？似乎ML从业者都是这样做的；是否存在明确的指导？ (2)处理具有数千个特征的范畴变量(大约6000)的一次热编码是最好的方法。这个数字特别高，因为数据集在一个热编码之前只有大约10个特征。请注意，这些类别在特性之间分布相当均匀。

浏览 0提问于2021-06-11得票数 2

1回答