数据预处理是建立机器学习模型的第一步,对最终结果有决定性的作用:如果你的数据集没有完成数据清洗和预处理,那么你的模型很可能也不会有效
第一步,导入数据
进行学习的第一步,我们需要将数据导入程序以进行下一步处理..., :, :, 0], (256, 256, 5))
img = np.squeeze(img)
train_img[i - 1, :, :, :] = img[:, :, :]
第二步,数据预处理...Pandas 则是最好的导入并处理数据集的一个库。对于数据预处理而言,Pandas 和 Numpy 基本是必需的
在导入库时,如果库名较长,最好能赋予其缩写形式,以便在之后的使用中可以使用简写。...,此时可以使用 scikit-learn 预处理模型中的 imputer 类来填充缺失项
from sklearn.preprocessing import Imputer
imputer = Imputer...(如:学习时,模型可能会因数据的大小而给予不同的权重,而我们并不需要如此的情况),我们可以将数据特征进行缩放,使用 sklearn.preprocessing.StandardScaler
from sklearn.preprocessing