首页
学习
活动
专区
工具
TVP
发布

100天搞定机器学习——Day1

如图所示,通过6步完成数据预处理。

此例用到的数据,代码。

第1步:导入库

importnumpyasnpimportpandasaspd

第2步:导入数据集

dataset=pd.read_csv('Data.csv')X=dataset.iloc[ : , :-1].valuesY=dataset.iloc[ : ,3].values

第3步:处理丢失数据

fromsklearn.preprocessingimportImputerimputer=Imputer(missing_values="NaN",strategy="mean",axis=)imputer=imputer.fit(X[ : ,1:3])X[ : ,1:3]=imputer.transform(X[ : ,1:3])

第4步:解析分类数据

fromsklearn.preprocessingimportLabelEncoder, OneHotEncoderlabelencoder_X=LabelEncoder()X[ : ,]=labelencoder_X.fit_transform(X[ : ,])

创建虚拟变量

onehotencoder=OneHotEncoder(categorical_features=[])X=onehotencoder.fit_transform(X).toarray()labelencoder_Y=LabelEncoder()Y=labelencoder_Y.fit_transform(Y)

第5步:拆分数据集为训练集合和测试集合

fromsklearn.cross_validationimporttrain_test_splitX_train, X_test, Y_train, Y_test=train_test_split( X , Y ,test_size=0.2,random_state=)

第6步:特征量化

fromsklearn.preprocessingimportStandardScalersc_X=StandardScaler()X_train=sc_X.fit_transform(X_train)X_test=sc_X.fit_transform(X_test)

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180806G1TYQ700?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券