而缺失值是我们最常遇到的。
对于缺省的数据,在处理之前需要进行预处理操作,基于业务经验或者采用中位数,均值或者众数来填充,在scikit中主要通过imputer来实现对缺省值的填充。
?...1)axis=0 按照列填充
2)axis=1 按照行填充
3)copy=True 在原始值上做
代码块显示效果
import numpy as np
from sklearn.preprocessing...1],
[np.nan, 5, np.nan, 1],
[4, 1, np.nan, 5],
[np.nan, np.nan, np.nan, 1]
]
# 参照列进行填充值的计算...imp1 = Imputer(missing_values='NaN', strategy='mean', axis=0)
# # 按照行计算填充值
imp2 = Imputer(missing_values