如图所示,通过6步完成数据预处理。
此例用到的数据,代码。
第1步:导入库
importnumpyasnpimportpandasaspd
第2步:导入数据集
dataset=pd.read_csv('Data.csv')X=dataset.iloc[ : , :-1].valuesY=dataset.iloc[ : ,3].values
第3步:处理丢失数据
fromsklearn.preprocessingimportImputerimputer=Imputer(missing_values="NaN",strategy="mean",axis=)imputer=imputer.fit(X[ : ,1:3])X[ : ,1:3]=imputer.transform(X[ : ,1:3])
第4步:解析分类数据
fromsklearn.preprocessingimportLabelEncoder, OneHotEncoderlabelencoder_X=LabelEncoder()X[ : ,]=labelencoder_X.fit_transform(X[ : ,])
创建虚拟变量
onehotencoder=OneHotEncoder(categorical_features=[])X=onehotencoder.fit_transform(X).toarray()labelencoder_Y=LabelEncoder()Y=labelencoder_Y.fit_transform(Y)
第5步:拆分数据集为训练集合和测试集合
fromsklearn.cross_validationimporttrain_test_splitX_train, X_test, Y_train, Y_test=train_test_split( X , Y ,test_size=0.2,random_state=)
第6步:特征量化
fromsklearn.preprocessingimportStandardScalersc_X=StandardScaler()X_train=sc_X.fit_transform(X_train)X_test=sc_X.fit_transform(X_test)
领取专属 10元无门槛券
私享最新 技术干货