在应用线性回归之前,我试图将数据中的行随机化,但我意识到,在行被随机化之后,回归结果是不同的--这不应该是这样吗?我曾尝试使用的密码:
Without row randomisation:
data
X = data[feature_col]
y = data['median_price']
lr = LinearRegression()
lr.fit(X, y)
With row randomisation:
Method 1:
data = data.sample(frac=1)
Method 2:
data = data.sample(frac=1, axis=1)
Method 3:
from sklearn.utils import shuffle
data = shuffle(data)
Method 4:
data = data.sample(frac=1, axis=1).reset_index(drop=True)在我尝试过的4行随机化方法中,只有方法4给出的结果与不应用随机化的方法相同。我认为行随机化在任何情况下都不会影响回归结果?
发布于 2018-07-01 05:25:58
方法2和方法4是相同的?
如果将相同类型的回归应用于相同的数据(随机或非随机),则回归结果不应不同。您应该使用axis = 0对数据行进行随机化,axis = 1对列进行随机化。
https://stackoverflow.com/questions/51120502
复制相似问题