下面我们来使用fancyimpute 库来进行代码显示。 fancyimpute 提供了多种高级的缺失数据填充技术,包括矩阵分解、K-最近邻、插值和矩阵完成等。...import pandas as pd from sklearn.model_selection import train_test_split from fancyimpute import IterativeImputer
(对于连续特征一般是加权平均,对于离散特征一般是加权投票) fancyimpute 类 from fancyimpute import KNN fill_knn = KNN(k=3).fit_transform
(对于连续特征一般是加权平均,对于离散特征一般是加权投票) fancyimpute 类 from fancyimpute import KNNfill_knn = KNN(k=3).fit_transform
3.1 基于knn算法进行填充 from fancyimpute import KNN data_train_knn = pd.DataFrame(KNN(k=6).fit_transform(data_train_shanchu
library(DMwR) knnOutput <- knnImputation(mydata) In python from fancyimpute import KNN # Use 5
1.0 15 2 3 7.0 8 3 4 NaN 12 4 5 4.0 17 5 6 0.0 9 6 7 5.0 7 7 8 7.0 14 8 9 12.0 16 9 10 NaN 20 from fancyimpute
使用模型进行填补的方法需要用到扩展包Fancyimpute或者Sklearn,其具体做法也与之后的数据建模类似。 2.5 异常值处理 在数据预处理时很容易忽略异常值的处理,因为其发现难度较大。
= data['灰度分'].fillna(method='bfill') ⑤用插值法填充 data['灰度分'] = data['灰度分'].interpolate() ⑥用KNN进行填充 from fancyimpute...2078, 53) unknow_y2 = rfr.predict(unknow_x2) unknow_y2 = pd.DataFrame(unknow_y2, columns=['灰度分']) ⑧使用fancyimpute
data.fillna(method=’bfill’, inplace=True) # 填充后一条数据的值,但是后一条也不一定有值 data.fillna(0, inplace=True) 填充 knn 数据 from fancyimpute
train_data[f].interpolate() train_data.dropna(inplace=True) """填充KNN数据:先利用knn计算临近的k个数据,然后填充他们的均值""" from fancyimpute
领取专属 10元无门槛券
手把手带您无忧上云