本文记录下我练习的过程,欢迎交流。
参考书目 《阿里云天池大赛赛题解析》
train_data = pd.read_csv('data_origin/zhengqi_train.txt', sep='\t', encoding='utf-8')
test_data = pd.read_csv('data_origin/zhengqi_test.txt', sep='\t', encoding='utf-8')
绿框是数据分布较为集中的特征,红框是存在离散特别大数据的特征。
target特征
train和test相同特征分布情况对比
红框框选了train和test相近表现的特征
我主要做了归一化,然后选取了线性相关度高的特征,最后进行了pca降维成6个组分(可解释0.9以上)。
proc_pipeline = make_pipeline(min_max_proc(), boxcox_proc(), corsel_proc(), pca_proc(n_components=6))
预处理效果示例
在进行特征衍生之前比较了不同机器学习方法的表现。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。