前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >天池大赛_工业蒸汽量_day1

天池大赛_工业蒸汽量_day1

原创
作者头像
勤劳小王
发布2024-07-09 09:49:40
发布2024-07-09 09:49:40
8000
代码可运行
举报
运行总次数:0
代码可运行

本文记录下我练习的过程,欢迎交流。

参考书目 《阿里云天池大赛赛题解析》

数据导入

代码语言:javascript
代码运行次数:0
复制
    train_data = pd.read_csv('data_origin/zhengqi_train.txt', sep='\t', encoding='utf-8')
    test_data = pd.read_csv('data_origin/zhengqi_test.txt', sep='\t', encoding='utf-8')

数据分析

可视化分析

箱线图观察异常值情况

绿框是数据分布较为集中的特征,红框是存在离散特别大数据的特征。

img
img
img
img

KDE图分析数据分布偏斜情况

img
img

target特征

img
img

train和test相同特征分布情况对比

QQ图分析是否符合正太分布假设

红框框选了train和test相近表现的特征

img
img
img
img

相关性热力图,寻找与特征线性相关度高的特征

img
img
img
img

数据预处理

我主要做了归一化,然后选取了线性相关度高的特征,最后进行了pca降维成6个组分(可解释0.9以上)。

代码语言:javascript
代码运行次数:0
复制
proc_pipeline = make_pipeline(min_max_proc(), boxcox_proc(), corsel_proc(), pca_proc(n_components=6)) 

预处理效果示例

img
img

模型初步选择

在进行特征衍生之前比较了不同机器学习方法的表现。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 数据导入
  • 数据分析
    • 可视化分析
    • 箱线图观察异常值情况
    • KDE图分析数据分布偏斜情况
    • QQ图分析是否符合正太分布假设
    • 相关性热力图,寻找与特征线性相关度高的特征
    • 数据预处理
    • 模型初步选择
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档