当我尝试使用sklearn StandardScaler缩放我的因变量时,我遇到了错误。
我的代码is_
# Scale the data using sklearn StandardScaler
from sklearn.preprocessing import StandardScaler
#Creating object of StandardScaler
scale=StandardScaler()
# Scale the dependent variable data using sklearn StandardScaler
y = scale.fit_transform(y)
我读了一个解释"“的答案,答案是”使用训练集的方法和标准偏差来标准化任何测试集“。
因此,我试图修复以前的错误操作。但是,我检查了 of StandardScaler(),它不能用给定的平均值和std进行扩展。就像这样:
from sklearn.preprocessing import StandardScaler
sc = StandardScaler(mean = train_x.mean(), var_x = train.std())
sc.fit(test_x)
# this code is incorrect, but what is the correct code?
我不明白这条消息/opt/conda/envs/Python36/lib/python3.6/site-packages/sklearn/preprocessing/data.py:645: DataConversionWarning: Data with input dtype uint8, int64 were all converted to float64 by StandardScaler. return self.partial_fit(X, y) /opt/conda/envs/Python36/lib/python3.6/site-packages/ipykernel/_
如何在Sklearn中保存StandardScaler()模型?我需要使模型具有可操作性,并且不想一次又一次地加载训练数据,以便StandardScaler学习,然后应用于我想要进行预测的新数据。
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
#standardizing after splitting
X_train, X_test, y_train, y_test = train_test_split(data, target)
s
这段代码:
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import Ridge
X = 'some_data'
y = 'some_target'
penalty = 1.5e-5
A = Ridge(normalize=True, alpha=penalty).fit(X, y)
触发以下警告:
FutureWarning: 'normalize'
我有一组数据,我使用了scikit learn PCA。在使用StandardScaler()执行主成分分析之前,我对数据进行了缩放。
variance_to_retain = 0.99
np_scaled = StandardScaler().fit_transform(df_data)
pca = PCA(n_components=variance_to_retain)
np_pca = pca.fit_transform(np_scaled)
# make dataframe of scaled data
# put column names on scaled data for us
我不明白为什么在训练机器学习算法(如MLPRegressor (SKLearn) )时,没有人缩放目标数据?
我总是看到这样的事情:
# separate array into input and output components
X = array[:,0:8]
Y = array[:,8]
scaler = StandardScaler().fit(X)
StandardX = scaler.transform(X)
但也会期待这样的事情:
# separate array into input and output components
X = array[:,0:8]
Y = arr
我有一个包含8个因变量的数据集(2个分类数据)。我已经应用ExtraTreeClassifier()消除了一些因变量。我还用了X,y的标度。
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X = sc.fit_transform(X)
X = sc.transform(X)
y = sc.fit_transform(y)
y = sc.transform(y)
在此之后,我将数据集拆分为
from sklearn.cross_validation import train_test_sp
我正试图找出StandardScaler()在滑雪中的用途。
我所遵循的教程说
“请记住,您还需要再次执行缩放,因为您的红色和白色葡萄酒的一些值有很大的差异”
所以我在sklearn文档中查找了函数。
“通过删除均值和缩放到单位方差来标准化特性”https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html
去掉这个平均数有什么好处呢?
什么是缩放数据?很难用谷歌搜索。
# Scale the data with `StandardScaler`
X = StandardSc
你能告诉我如何纠正这个错误吗?我使用决策树来训练笔划模型。数据集在kaggle上,但是..我不明白这个问题。
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
dataset = pd.read_csv("train.csv")
X = dataset.iloc[:,[0,12]].values
Y = dataset.iloc[:,13].values
from sklearn.preprocessing import StandardScaler
SC = StandardScale
我正在尝试通过使用波士顿住房数据集来学习scikit-learn和机器学习。
# I splitted the initial dataset ('housing_X' and 'housing_y')
from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(housing_X, housing_y, test_size=0.25, random_state=33)
# I scaled those two
我正在尝试用一个测试机器学习数据集在pyspark中运行Spark MLlib包。我将数据集分为一半的训练数据集和一半的测试数据集。下面是我构建模型的代码。但是,它显示了NaN,NaN的权重。所有因变量。找不到原因。但是,当我尝试使用StandardScaler函数标准化数据时,它会起作用。
model = LinearRegressionWithSGD.train(train_data, step = 0.01)
# evaluate model on test data set
valuesAndPreds = test_data.map(lambda p: (p.label, mod
我正在使用一个模型,在分割成训练和测试之后,我想应用StandardScaler()。但是,这个转换将我的数据转换为一个数组,我希望保留以前的格式。我该怎么做?
基本上,我有:
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
X = df[features]
y = df[["target"]]
X_train, X_test, y_train, y_test = train_test_split(
X, y,
当缩放数据时,为什么训练数据集使用“fit”和“transform”,而测试数据集只使用“transform”? SAMPLE_COUNT = 5000
TEST_COUNT = 20000
seed(0)
sample = list()
test_sample = list()
for index, line in enumerate(open('covtype.data','rb')):
if index < SAMPLE_COUNT:
sample.append(line)
else:
r = ran