虽然说特征工程很大程度上是经验工程,跟具体业务相关,但是我们可以根据一些思路来进行,以下是我在实践过程中总结出来的一些思路,希望能给大家带来一点启发。
使用数据可视化工具对数据进行概览
常用的概览方法:
查看空数据总数
data.isnull().sum()
定位空数据:
dataset.loc[dataset.col_name.isnull(),'col_name']=data_to_fill
解决空数据的方法:
常用图表有:
条形图 countplot barplot
饼状图 pie
散点图 scatter
分布图(seaborn.distplot)
热力图+协方差矩阵 heatmap
对比图 PairGrid 使用完热力图后将与目标属性最相关的几个属性做一个对比图,两两对比
原始属性
四则运算
求和
求增幅
求众数,方差,极差
几点tips: