Pandas:部分依赖图+一个热编码_Pandas，反转一个热编码_Pandas按一个热编码列分组 - 腾讯云开发者社区

python、pandas、machine-learning

我尝试了一种热编码，但这似乎不是正确的方法。有谁能帮我吗？ titanic_data = pd.read_csv('..

浏览 7提问于2019-03-06得票数 0

1回答

一种热编码和pandas.categorical.code有什么区别？

python、pandas、scikit-learn、categorical-data、one-hot-encoding

我正在处理一些问题，并对以下几点表示怀疑：array(['1 bath', 'na', '1 shared bath', '1.5 baths', '1 privateshared baths', '8 baths',如果我使用计数Vectorize将它们转换为

浏览 4提问于2021-01-10得票数 1

回答已采纳

2回答

从其他熊猫栏创建新栏目

python、python-3.x、pandas、dataframe

我想从列创建一个新的列。“类型”列包含一个或多个类型，我希望为每个类型名称创建一个列。然后，我想在每个专栏中填写1和0，这取决于它们是否有这种类型。我不需要这样的东西

浏览 6提问于2022-05-12得票数 0

回答已采纳

2回答

保存并加载ML的一个热编码

python、machine-learning、one-hot-encoding

对于机器学习回归模型，我需要对某些列进行热编码。培训数据和模型拟合正在我的本地PC上进行。在此之后，模型将上传到服务器进行预测。问题是新的数据不是初始编码的一部分，所以我需要像在我的PC上学习数据一样对它进行热编码。我发现我可以保存编码器(sklearn.preprocessing -> OneHotEncoder)。为了更容易理解这里，我刚刚创建了一个笔记本与一些非常简单的虚拟数据。# Import pandas librar

浏览 3提问于2019-12-28得票数 4

回答已采纳

2回答

"dataframe[each]“在潘达斯中代表什么？

python-3.x、pandas、dataframe

我很难理解一行代码，这些代码在python语言中使用Pandas进行一次热编码。提亚def one_hot(dataframe, col): dummies = pd.get_dummies(dataframe[each

浏览 4提问于2022-04-01得票数 0

回答已采纳

2回答

如何在Pandas* DataFrame的多列中进行一次热编码，以便以后与Scikit一起使用-学习*

python、pandas、scikit-learn

181000], }在此，我想对“品牌”和“城镇”两栏做一次热编码，以训练一个分类器(比如与Scikit学习)并预测年份。一旦对分类器进行了训练，我将希望对新输入的数据进行预测(而不是在培训中使用)，在那里我需要重新应用相同的热编码。DataFrame上的2列进行一次热编码的最佳方法是什么?知道需要对几个列进行<e

浏览 4提问于2017-10-10得票数 3

1回答

如何利用Pandas* get_dummies对预测数据进行预测？*

one-hot-encoding

在3个分类列上使用Pandas get_dummies来获得一个热编码的Dataframe之后，我已经训练了一个Perceptron模型(并取得了一些成功)。现在我想预测一个新的观察结果，它不是热编码。有任何方法记录get_dummies列映射来重用它吗？

浏览 2提问于2018-05-31得票数 5

回答已采纳

1回答

在python sklearn部分依赖图中更改y标签

python、matplotlib、machine-learning、scikit-learn

我想将y标签从部分依赖图从“部分依赖”更改为“失败概率”。这篇文章类似于，但是解决方案没有起作用，而且显然y_axis是在函数()中硬编码的。

浏览 0提问于2021-04-22得票数 0

回答已采纳

1回答

将Sci-Kit学习分类器的预测结果与原始测试集数据相结合

python、scikit-learn

我正在做一个ML项目(一个二进制分类问题)，并且能够成功地运行几个Sci-Kit分类器(RF，MLP，额外的树)。我的问题是，现在我有了"Predict_Probas“结果，我已经将其转换为Pandas数据框架，我想将它与我最初的测试数据结合起来，稍后我将在CSV中导出测试数据。问题是我采取了以下方法- 然后用一次热编码对数据进行编码。然后使用Train_test_split，将标准化和编码

浏览 0提问于2018-03-24得票数 1

回答已采纳

1回答

如何在一个热编码中修复此ValueError？

python、data-science、data-mining

当尝试在Jupyter-Notebook中运行以下代码时，会导致以下错误：dataset_test.drop_duplicates(inplace=True) enc = OneHotEncoder()dataset_train_cat_data = pd.DataFra

浏览 4提问于2021-05-25得票数 0

2回答

Pandas，反转一个热编码

python、pandas、one-hot-encoding

我对一些变量进行了热编码，经过一些计算后，我想要检索原始的变量。我正在做的事情如下：我过滤了一个热编码的列名(它们都以原始变量的名称开头，假设是'mycol') filter_col = [col for col in df if col.startswith('我如何从中创建一个变量呢？作为请求，下面是一个取自here的示例 df= pd.DataFrame({ 'mycol':np.random.choi

浏览 19提问于2019-06-20得票数 3

回答已采纳

2回答

如何迭代csv文件的列以将其拆分为多个文件？

python

我有一个csv文件，其中行是日期，列是不同的区域(参见图1)。我想创建一个包含3列的文件:日期、区域和指示器，其中对于每个日期和区域名称，第三列将具有正确的指示器(参见图2)。

浏览 9提问于2021-04-07得票数 0

回答已采纳

1回答

Python如何处理单热编码数据？

python

当我使用Python sci-kit learn for Machine Learning项目时，我经常使用单热编码。

浏览 15提问于2020-02-21得票数 1

回答已采纳

2回答

Python中的一种热编码

python、pandas、machine-learning

我对一个热门编码有疑问：导入测试数据集后，如果我对其进行热编码，编码将与训练数据集的编码相同还是不同。如果是这样，我如何解决这个问题？

浏览 3提问于2018-07-10得票数 1

1回答

即使使用稀疏矩阵，SelectKBest也会出现内存错误

machine-learning、scikit-learn

在这里的其他一些问题之后，我能够调整算法来处理我的数据，但不幸的是，为了获得最佳性能，我需要对分类特征进行一次热编码，现在我的输入矩阵有超过3000个特征，导致内存错误。

浏览 0提问于2019-06-25得票数 0

1回答

按分类列拆分训练集和测试集

python、pandas、scikit-learn

我有一个包含大约25000行和32列的数据帧。我想把这个数据集分成一个训练和测试测试(80/20)。但是，存在某些列1-热编码。现在，当拆分数据时，我希望将每个1-hot编码列的相同比例放入训练集。

浏览 16提问于2020-05-25得票数 2

1回答

如何在python中对无序离散数据进行热编码？

python、pandas、one-hot-encoding

问题我正在尝试对一组特征进行一次热编码，其中的值是自定义对象。我认为，如果顺序未定义，那么应该仍然可以有一个热编码，因为在这种情况下，哪个热编码功能在另一个</em

浏览 0提问于2018-07-20得票数 1

1回答

当使用块读取大型csv文件时，如何在连接块之前处理除一列之外的所有列

python、pandas、csv、chunks

我有一个很大的csv文件(7GB)，我用这些代码在Pandas中读取它：df=pd.DataFrame()这对我有用，因为文件是一个热编码的，所以chunk==1部分将0和1转换为布尔值，这为我节省了一些内存使用量现在我想使用同样的方法读取另一个

浏览 3提问于2017-09-20得票数 1

回答已采纳

2回答

滑雪板中的Y应该是什么格式？

python、machine-learning、scikit-learn

Y必须是一个热编码还是非热编码？

浏览 6提问于2022-09-15得票数 2

1回答

当有分类数据时，使用Sklearn随机森林进行特征选择不会给出预期的结果

python、scikit-learn、random-forest、feature-selection

我有一个分类变量-气候类型，有五种气候类型(温度-热，温度-干燥，温度暖，热带和干旱)，我知道气候类型对我的自变量有很大的影响，但是，当我使用一种热编码方法(通过pandas get_dummies)时，我发现这些气候类型(经过一次热编码后成为具有false/true的五个变量)是最不重要的，这不是真的。这是我的代码的一部分： model = RandomForestRegressor(n_estimators=100, bootstra

浏览 44提问于2020-10-07得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云