我正在对模型的数据集中的变量进行编码,现在,我使用来自Normalizer()的sklearn.preprocessing来规范我的一个变量,即数值变量。现在,我的目标是规范化训练子集中的这个数值变量(让我们称之为列x),然后使用规范化参数来规范推理数据集中的同一个变量。当我尝试在推理子集中的列x上使用相同的规范化器参数时,因为它有不同的行数:我得到:
X has 10 features, but Normalizer我不确定这是什么重塑问题
我在DataFrame中有4个特性。前两个特征是文本特征,另两个特征是数字特征。结果列为1或0。data_for_prediction))ValueError: Specifying the columns using strings is only supported for pandasDataFrames
当我训练我的模型时,我使用了Pandas数据,当我想做预测时,我只是把这些值放在列表中。我的最后一个模型和向量器应该在API中使用,api应该只使用JSON,所以
我需要在使用列名的管道中使用自定义转换器。但是,前面的管道转换将数据转换为numpy数组。我知道在管道合适之后,我可以从列转换器对象中检索列名,但是我需要在fit步骤中访问列名。import pandas as pd
from sklearn.pipeline import Pipelinefrom sklearn.preprocessing import O
我目前正在尝试学习如何使用管道和列转换器,但在将它们应用于数据帧时遇到了困难。我正在做一个Kaggle住房数据集,它基于爱荷华州的房屋或类似的东西()。我已经用dataframe列均值填充了Null值,并为包含字符串的列填充了'None‘。我现在正在尝试创建一个columns转换器,使用以下命令将OneHotEncoder应用于只包含string对象的列:
obj_list=[x for x in df.columns if (df[x]=np.float)] #Columns
我试图只在数据集中的RobustScaler数值特征 (LotFrontage、LotArea等)上使用sklearn中的。一旦转换器适合这些值,我就调用transform函数,试图通过设置转换器等于对象排除属性来转换那些与数据匹配的值。所起作用的是,当我将转换结果设置为某个变量时,我将结果作为一个numpy.ndarray返回。pandas data frame中。如果不能直接转换原始数据格式结果,是否可以实现一些解决方案?