每个人处理数据的思维和方式都不一样,因此本文只是依据我的一些学习经验进行数据处理,给大家当个baseline~
【Step 1:导包】
import pandas as pd
import numpy...# 筛选出可以转化为数值型数据的列
numerical_col = ['售价', '新车售价', '行驶里程', '过户记录',
'载客/人', '排量(L)', '...(Ps)', '最大功率(kW)', '最大扭矩(N·m)'
]
many_fill_col = ['车门数', '气缸数(个)', '每缸气门数(个)'] # 多数都为...(L)', '最大功率转速(rpm)', '最大扭矩转速(rpm)'] 中的异常值
# 异常值处理函数
def pickNum(df, c):
if '-' in df[c]:...】
数据中包含许多日期数据,我将它们转换成天数差,即用数据获取的时间减去对应的时间。