在pandas中，如果一列是分类的，如何规范化数据范围？

在pandas中，如果一列是分类的，可以使用astype方法将其转换为category类型，然后使用cat属性中的codes属性获取对应的整数编码。接下来，可以使用MinMaxScaler类或StandardScaler类来规范化数据范围。

将列转换为category类型：

df['column_name'] = df['column_name'].astype('category')

获取整数编码：

df['column_name'] = df['column_name'].cat.codes

使用MinMaxScaler类进行数据范围规范化：

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
df['column_name'] = scaler.fit_transform(df['column_name'].values.reshape(-1, 1))

使用StandardScaler类进行数据范围规范化：

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
df['column_name'] = scaler.fit_transform(df['column_name'].values.reshape(-1, 1))

以上方法可以将分类数据规范化到指定的范围内，例如0到1之间或标准正态分布。这样可以确保数据在相同的尺度上进行比较和分析。

腾讯云相关产品和产品介绍链接地址：

在pandas中，如果一列是分类的，如何规范化数据范围？

、、、、

我一直在尝试预处理一组数据，但由于其中一列具有分类值，我无法获得正确的值。有没有更好的选择来处理这个或任何替代方案，以使结果更好？

浏览 1提问于2018-08-23得票数 0

4回答

按组规范DataFrame

、

假设我已经生成了如下数据：m = 3然后我创建了一些分类变量：并生成一个DataFrame：df = pd.DataFramenp.hstack((data, indx[:,None])), columns=

浏览 6提问于2014-09-25得票数 37

回答已采纳

1回答

实现Max规范化的正确方法

、、、、

我正在使用opencv svm实现字母表分类。我对特征向量的规范化表示怀疑。我有两种方法来规范特征向量，我需要找出哪种方法在逻辑上是正确的？目前，我正在寻找每个列的最大值和最小值，并在此基础上进行规范化。min = 2并在此基础上进行了第一列的规范化。同样，所有其他列都是规范

浏览 3提问于2015-01-12得票数 1

回答已采纳

1回答

matplotlib pandas* plot中的附加“类似轴”图*

、、、、

我将一些数据存储在pandas数据帧中。另外，我使用matplotlib来创建显示数据的图。请看这张漂亮的图片：红线显示了一些对应于x轴点的值。它只是数据帧中的一列。我想添加额外的注释，对x轴点进行分类。这些类别作为附加列存储在原始数据帧中。它不必看起来与图片中<

浏览 7提问于2017-07-18得票数 4

回答已采纳

1回答

对每列执行操作

如何使用循环遍历列，将相同的函数应用于pandas数据帧中的每一列？如何对此代码进行扩展，以便将规范化应用于Cat1...Cat50？

浏览 0提问于2015-04-08得票数 0

2回答

如何对不同激活函数的训练数据进行标准化？

、、

我正在训练全连接神经网络来对MNIST数据集进行分类。输入数据是正方形黑白图像，具有[0, 255]格式的像素值。我读到要使用sigmoid()激活器，需要将输入规范化为[0, 1] (sigmoid的范围)。如何对tanh()激活器的输入数据进行规范化？我是否需要将其重新缩放为[-1, 1] (tanh的范围)，或者它仍然可以是[0, 1]。

浏览 10提问于2018-08-02得票数 1

回答已采纳

1回答

深度学习数据规范化

、、、、

我正在为我的模型处理不同类型的金融数据输入，我想了解更多关于它们的规范化的信息。另一些则标准化为-1到1之间。你对混合归一化数据有什么经验？拥有这两个范围是可以接受的吗?还是拥有一个单一范围(即0 1)的训练数据集总是更好？

浏览 13提问于2022-03-05得票数 1

回答已采纳

2回答

填充缺失的值并进行规范化

、、、、

数据是高度和权重，所以我认为一个很好的填充值应该是0或-1。这是基于Python中的深度学习一书：我还被建议通过减去每一列的平均值并除以std来规范数据。这两种方法都很好--我知道怎么做和为什么要这样做。我不

浏览 0提问于2018-07-26得票数 8

1回答

我怎样才能干净地标准化数据，然后“去标准化”它呢？

、、、、

我用的是Anaconda和Tensorflow神经网络。我的大部分数据都是用pandas存储的。从新的合并的DataFrame中</

浏览 4提问于2017-04-13得票数 2

回答已采纳

1回答

是否可以控制从matplotlib颜色图中检索到哪些颜色？

、、

我想在图中为整数表示的标称数据指定颜色。我想从一个定性的颜色图中画出颜色，具体来说，我想从Set3中画出五种颜色：问题是，我想要使用前五种颜色，但是colormapper将我的数据规范化，数据范围为5种分类值，并从12色集中选择第基本上，matplotlib.cm.get_cmap允许您指定多个颜色，但可以在整个范围内进行规范化： f

浏览 2提问于2020-03-25得票数 4

回答已采纳

2回答

寻找数字编码的分类变量之间的相关性？

、、、

所以我有一个包含分类变量的数据集。我已经根据类别x的数量从0:x对每个类别进行了编码。我试图找到变量(数字和分类)与目标变量(也是分类变量，但已编码为0表示否，1表示是)之间的相关性。我以前没有在我的数据集中计算过与分类变量的相关性，只想确保我的方法是正确的： print(df['previous&#

浏览 2提问于2017-11-16得票数 0

6回答

如果pandas.DataFrame中的列是绝对的，什么是一个很好的启发式方法？

、、

我一直在开发一个工具，可以自动地以pandas.DataFrame格式对数据进行预处理。在这个预处理步骤中，我想以不同的方式处理连续数据和分类数据。特别是，我希望能够只对分类数据应用(例如，OneHotEncoder )。现在，让我们假设我们被提供了一个pandas.DataFrame，并且没有关于DataFrame中数据的其他信息。使用什么好

浏览 4提问于2016-03-06得票数 29

1回答

我应该使用什么数据库表布局来快速检索日期范围内的聚合/不同数据？

、

我正在编写一个web应用程序来分析我的web服务器日志。表包含一个列中的每个浏览器，在下一列中包含该日期范围的唯一客户端IP的数量

浏览 3提问于2011-10-05得票数 0

1回答

向任意坐标变换以比较输入的相对效果

、、

我本来打算在一个数学论坛上发布这篇文章，但我觉得这个问题取决于图形的制作和规则的绘制，所以我就来到了这里。我用R来做我所有的数据工作。我有许多不同的“类型”，我想与它们的限制进行比较(LL=lower限制，UL=upper限制)。它们都有不同的范围和限制，但我想比较它们是如何变化的，相对于不同的输入。

浏览 1提问于2016-03-15得票数 0

回答已采纳

2回答

svm错误测试数据是否与模型不匹配？

、、、

我正在尝试训练一个支持向量机分类器来做预测。当我尝试使用经过训练的模型时，我得到这个错误:测试数据与模型不匹配。我不是这一切发生的原因。这是我的代码dat = data.frame(x = rbind(tmp1, tmp2), y = as.factor

浏览 13提问于2017-12-31得票数 1

2回答

熊猫to_csv()未能保存结果

、、

我正在使用Pandas创建一个数据框架，最初从逗号分隔的文件中读取值。CSV文件包含与员工相关的数据集。csv文件中的数据使用MinMaxScaler在0-1的范围内标准化.规范化步骤工作得很好，print语句打印出属性的规范化结果。但是，当我试图在新的CSV文件中针对每个属

浏览 0提问于2018-11-22得票数 0

回答已采纳

1回答

如何在Encog中规范CSV输入数据？

、、、

我利用杰夫·希顿的Encog库成功地制作了一个神经网络。我目前正在使用它来分类(虹膜植物)。我有一个dataset CSV文件，其中包含理想的输出，我使用它进行培训。我希望使用一个单独的CSV文件，它不包含用于识别的输出字段。我遇到的问题是，当我使用没有输出字段的新CSV时，在试图使我的文件正常化时会出现以下错误：“无法自动确定目标字段，请指定一个。如果指定了错误

浏览 1提问于2015-03-31得票数 1

回答已采纳

2回答

如何创建特定的时间线？例如(t，t+1，t+2，....)

、、

我想创建一个具有特定时间线的空数据框，如下图所示。.t-2tt+2.finaltimeline = pd.DataFrame(data=timeline) 谢谢你的帮助

浏览 15提问于2019-07-05得票数 0

2回答

从分类器特征重要性将最大值传递给Bokeh图中的x_range

、、、

不是在bokeh中手动设置x范围，而是在绘图时传递列的最大值，例如将最大值设置为10，这将是某一列的最大值。p1 = figure(x_range=(0, 10))rf_important = pd.Series(new_rf.feature_importances_, index=x.columns) 此外，rf是pandas</em

浏览 0提问于2018-02-08得票数 1

回答已采纳

1回答

事实表是标准化、非规范化还是部分标准化？

您如何对数据仓库中的事实表进行分类？事实表是规范化、非规范化还是部分规范化。

浏览 0提问于2014-09-27得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在pandas中，如果一列是分类的，如何规范化数据范围？

相关·内容

在pandas中，如果一列是分类的，如何规范化数据范围？

按组规范DataFrame

实现Max规范化的正确方法

matplotlib pandas* plot中的附加“类似轴”图*

对每列执行操作

如何对不同激活函数的训练数据进行标准化？

深度学习数据规范化

填充缺失的值并进行规范化

我怎样才能干净地标准化数据，然后“去标准化”它呢？

是否可以控制从matplotlib颜色图中检索到哪些颜色？

寻找数字编码的分类变量之间的相关性？

如果pandas.DataFrame中的列是绝对的，什么是一个很好的启发式方法？

我应该使用什么数据库表布局来快速检索日期范围内的聚合/不同数据？

向任意坐标变换以比较输入的相对效果

svm错误测试数据是否与模型不匹配？

熊猫to_csv()未能保存结果

如何在Encog中规范CSV输入数据？

如何创建特定的时间线？例如(t，t+1，t+2，....)

从分类器特征重要性将最大值传递给Bokeh图中的x_range

事实表是标准化、非规范化还是部分标准化？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐