数据清洗是机器学习过程中一个不可缺少的环节,数据的清洗效果直接关系到模型效果以及最终的结论。在实际的工作中,数据清洗通常占开发过程的60%-80%左右的时间。而缺失值是我们最常遇到的。...对于缺省的数据,在处理之前需要进行预处理操作,基于业务经验或者采用中位数,均值或者众数来填充,在scikit中主要通过imputer来实现对缺省值的填充。
?...1)axis=0 按照列填充
2)axis=1 按照行填充
3)copy=True 在原始值上做
代码块显示效果
import numpy as np
from sklearn.preprocessing...1],
[np.nan, 5, np.nan, 1],
[4, 1, np.nan, 5],
[np.nan, np.nan, np.nan, 1]
]
# 参照列进行填充值的计算...imp1 = Imputer(missing_values='NaN', strategy='mean', axis=0)
# # 按照行计算填充值
imp2 = Imputer(missing_values