如何使用sklearn.base.SimpleImputer但返回pandas DataFrame来实现sklearn转换器

文章/答案/技术大牛

发布

2回答

、、

我想用sklearn计算机实现一个客户转换器，例如sklearn.base.SimpleImputer。None, **fit_params): return self # assumes X is a DataFrameXimp = self.imp.transform(X) Xfilled = pd.DataFrame(Ximp, index=X.index, colum

浏览 40提问于2019-08-29得票数 0

回答已采纳

2回答

规格化sklearn

、、、、

假设我有一个pandas数据框架，我想在这个函数的帮助下只规范化一些属性，而不是整个数据框架：我想把这些规范化的列放到我的数据数组中，但我不能，因为它有不同的格式我已经看到了如何通过其他方式进行规范化，例如，我就是这样做的：X.iloc[:,13:15] = (s0 - s0.mean()) / (s0.max()- s0.min())但我真的需要使用sklearn来做这件事。

浏览 0提问于2017-11-04得票数 0

1回答

使用ColumnTransformer.get_feature_names创建反向要素映射

、

假设我有一些DataFrame： import numpy as np { 'b': list('aaabb')) 我想用一个sklearn.compose.ColumnTransformer来转换它： from sklearn</

浏览 19提问于2019-10-15得票数 1

回答已采纳

1回答

用数组安装规范器，然后用sklearn在python中转换另一个

、

我正在对模型的数据集中的变量进行编码，现在，我使用来自Normalizer()的sklearn.preprocessing来规范我的一个变量，即数值变量。现在，我的目标是规范化训练子集中的这个数值变量(让我们称之为列x)，然后使用规范化参数来规范推理数据集中的同一个变量。当我尝试在推理子集中的列x上使用相同的规范化器参数时，因为它有不同的行数：我得到： X has 10 features, but Normalizer我不确定这是什么重塑问题

浏览 4提问于2022-07-05得票数 1

1回答

使用FunctionTransformer时会中断管道

、、、

我正在学习使用管道，因为它们看起来更干净。所以，我在Kaggle的桌面操场比赛上工作。我正在尝试遵循一个非常简单的管道，在这个管道中，我使用FunctionTransformer向dataframe添加一个新列，执行Ordinal Encoding，并最终将数据拟合到LinearRegression

浏览 0提问于2022-01-02得票数 0

5回答

有没有办法强迫变压器返回熊猫的数据？

、

我对scikit有问题--学习如何将数据转换为numpy数组。例如，下面的代码import pandas as pd x=[1, 2, np.nan],)) 返回 [1.5, 0.

浏览 0提问于2020-06-04得票数 7

回答已采纳

1回答

在FeatureUnion中绑定转换器的输出

、、

python和sklearn的新手，因此提前道歉。我有两个转换器，我想把结果收集到一个‘`FeatureUnion’中(最后一个建模步骤)。我将试着用下面的例子来演示：import numpy as npfrom sklearn import pipeline一些随机数据 df = pd.DataFrame(np.random.rand(10, 2),

浏览 5提问于2016-09-23得票数 2

回答已采纳

1回答

学习:按名称选择列的转换器

、

上下文问题import numpy as npfrom sklearn.compo

浏览 0提问于2020-05-02得票数 3

3回答

尝试从pandas导入DataFrame时出现ImportError

、

问:当我尝试运行"from pandas import read_csv“或"from pandas import DataFrame”时，我得到的错误分别是"ImportError: cannot import[ImportError: cannot import name 'DataFrame'][1]][1]”。我正在尝试运行的代码： from skl

浏览 164提问于2018-07-31得票数 0

1回答

使用scikit学习预处理器选择熊猫数据中的行子集

、

我是否可以使用或实现一个scikit学习预处理程序来从熊猫数据处理中选择一个行的子集？我希望由一个预处理程序来完成这个任务，因为我希望构建一个管道，并将其作为一个步骤。

浏览 2提问于2022-03-14得票数 4

回答已采纳

1回答

如何使用sklearn预处理器

、、

我写了这段代码attack_data = pd.DataFrame(attack_data, columns = ['payload

浏览 0提问于2019-07-08得票数 1

3回答

有没有办法强制SimpleImputer返回熊猫数据帧？

、、、

下面的代码import pandas as pd x=[1,2, np.nan],)) 返回 [1.5, 0. ]]) 有没有办法使用计算机返回一个pan

浏览 20提问于2020-06-04得票数 1

回答已采纳

2回答

加载滑雪板模型后无法进行预测

、、

我在DataFrame中有4个特性。前两个特征是文本特征，另两个特征是数字特征。结果列为1或0。data_for_prediction))ValueError: Specifying the columns using strings is only supported for pandasDataFrames 当我训练我的模型时，我使用了Pandas数据，当我想做预测时，我只是把这些值放在列表中。我的最后一个模型和向量器应该在API中使用，api应该只使用JSON，所以

浏览 8提问于2022-03-20得票数 3

回答已采纳

2回答

将列实例添加到管道中

、、、

通常，我们将df.drop('column_name', axis=1)以方式删除DataFrame中的列。

浏览 9提问于2021-07-16得票数 4

回答已采纳

1回答

访问ColumnTransformer管道中自定义转换器中的熊猫数据文件的列名？

、、、、

我需要在使用列名的管道中使用自定义转换器。但是，前面的管道转换将数据转换为numpy数组。我知道在管道合适之后，我可以从列转换器对象中检索列名，但是我需要在fit步骤中访问列名。import pandas as pd from sklearn.pipeline import Pipelinefrom sklearn.preprocessing import O

浏览 1提问于2020-09-11得票数 5

1回答

列转换器在传递df时出现OneHotEncoder问题

、、、

我目前正在尝试学习如何使用管道和列转换器，但在将它们应用于数据帧时遇到了困难。我正在做一个Kaggle住房数据集，它基于爱荷华州的房屋或类似的东西()。我已经用dataframe列均值填充了Null值，并为包含字符串的列填充了'None‘。我现在正在尝试创建一个columns转换器，使用以下命令将OneHotEncoder应用于只包含string对象的列： obj_list=[x for x in df.columns if (df[x]=np.float)] #Columns

浏览 0提问于2020-11-19得票数 0

1回答

sklearn的计算器减少了列？

、、、

我想知道是否有人可以帮助解释我在sklearn的interativeImputer上看到的一个奇怪的行为。(dataframe)imputershape: (1978, 91) 在将numpy数组sklearn返回转换回pandas df时，我发现了这个错误。tempDF = pd.Data

浏览 7提问于2020-07-14得票数 1

回答已采纳

1回答

在稀疏数据上运行sklearn分类器

、、

我试着在上面使用任何滑雪板分类器。我知道在sklearn中，即使是DecisionTrees实现也不允许字符串，所以我使用了一个热编码。dictionary = pandas.DataFrame(series[cat_feature]).to_dict(orient='records') new_df= pandas.DataFrame</em

浏览 0提问于2017-06-02得票数 0

1回答

SyntaxError同时尝试在Pandas上执行RobustScaler

、、、、

我试图只在数据集中的RobustScaler数值特征 (LotFrontage、LotArea等)上使用sklearn中的。一旦转换器适合这些值，我就调用transform函数，试图通过设置转换器等于对象排除属性来转换那些与数据匹配的值。所起作用的是，当我将转换结果设置为某个变量时，我将结果作为一个numpy.ndarray返回。pandas data frame中。如果不能直接转换原始数据格式结果，是否可以实现一些解决方案？

浏览 2提问于2019-02-07得票数 2

回答已采纳

2回答

如何在使用sklearn时不使用数值列？

、、、

环境：from sklearn.pipeline import Pipelinefrom sklearn.ensemble import RandomForestClassifierX_train = pd.DataFrame({'A'B': ['b2', 'b1

浏览 3提问于2020-03-22得票数 4

回答已采纳

点击加载更多