这段代码:
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import Ridge
X = 'some_data'
y = 'some_target'
penalty = 1.5e-5
A = Ridge(normalize=True, alpha=penalty).fit(X, y)
触发以下警告:
FutureWarning: 'normalize'
我正在使用线性回归来预测数据。但是,当我标准化(Vs)变量时,我得到了完全相反的结果。
归一化=x - xmin / xmax -xmin=零分标准化=x- xmean/ xstd
a) Also, when to Normalize (Vs) Standardize ?
b) How Normalization affects Linear Regression?
c) Is it okay if I don't normalize all the attributes/lables in the linear regression?
谢谢,Santosh
对于随机数据的平方矩阵,N列和N行。我正在拟合两个模型,线性回归和拉索。
在线性回归中,我在训练集上得到了一个完美的分数,而在Lasso中,我得到了0的分数。
import pandas as pd
import numpy as np
from sklearn import linear_model
N = 100
X = pd.DataFrame(np.random.rand(N,N))
y = np.random.randint(20, size=N)
lin = linear_model.LinearRegression().fit(X,y)
lasso = linear_mod
我知道在训练机器学习算法之前,分类数据应该是一个热编码。对于多元线性回归,我还需要排除其中一个编码变量,以避免所谓的虚拟变量陷阱。
例:如果我有“大小”:“小”、“中”、“大”的分类特征,那么在一个热编码中,我会有如下内容:
small medium large other-feature
0 1 0 2999
因此,为了避免虚拟变量陷阱,我需要删除3列中的任何一列,例如,列“小”。
对于神经网络的训练,我也应该这样做吗?还是这纯粹是为了多元回归?
谢谢。