# 读取数据
data = pd.read_excel("cars_info.xlsx", na_values=np.nan)
# 每列数据为空的列,数量大于80000,删除该列(无参考价值)
for...print(c, data[c].isin(["标配"]).sum())
data.drop([c], axis=1, inplace=True)
# 删除 “售价” 和 “排量” 为空的行...剔除这些列中的异常数据,并且为空值进行填充,可以使用平均值或众数进行填充。...# 筛选出可以转化为数值型数据的列
numerical_col = ['售价', '新车售价', '行驶里程', '过户记录',
'载客/人', '排量(L)', '...的形式,建议类别的个数超过10的时候就不要使用独热编码了,因为会导致数据过于稀疏,它的详细作用就不介绍了,朋友们自行百度。