前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >拉通对齐 梳理Kaggle竞赛组合拳!

拉通对齐 梳理Kaggle竞赛组合拳!

作者头像
Python数据科学
发布2021-09-08 15:24:16
6850
发布2021-09-08 15:24:16
举报
文章被收录于专栏:Python数据科学Python数据科学

参加Kaggle竞赛往往都需要较多的步骤,对于小白同学,完成完成所有的步骤是一件非常困难的事情。

本文展示了如何敏捷式逐步完成竞赛的过程,具体以Tabular Playground Series比赛为例。

https://www.kaggle.com/c/tabular-playground-series-jan-2021

循序渐进

继续练习你掌握的知识,不断尝试新事物。

迭代1

  1. 阅读比赛信息

阅读说明、评价、时间线、奖品和规则,可能有些比赛可能有更多的细节,所以养成阅读所有提供的信息和标签的习惯。

  1. 验证数据文件格式

阅读数据描述并查看数据文件:train、test、sample_submission。检查所有字段与描述是否匹配。

  1. 设置您的环境

将数据集下载到您的本地机器或使用免费的代码资源,如Kaggle Notebooks和Google Colab。

  1. 探索数据

探索数据。了解数据。在阅读其他人的分享之前,自己探索数据通常是个好主意。

  1. 阅读比赛论坛

比赛论坛有很多有用的信息和有趣的讨论,你应该关注论坛,或者不时检查新帖子和评论。

6. 阅读比赛Notebook

阅读公开的EDA和baseline Notebook,这是开始自己的代码的好地方,也可以跟随开源的进度。

  1. 建立一个基线模型

拥有一个非常基本的端到端模型,不一定需要是机器学习模型。

  1. 提交到排行榜

使用模型对测试数据进行预测,并将其提交给 Kaggle排行榜。

  1. 提出问题

根据上述操作,你或许有一些疑问,可以尝试在比赛论坛提出或者记录下自己的疑问。

迭代2

  1. 验证想法

验证想尝试想法,验证方法次数越多,越接近正确答案。

  1. 数据清洗

对原始数据集处理为最干净的形式,不同的数据集需要不同类型的预处理和转换,有时需要不同的模型。

  1. 特征工程

新功能可以显着提高模型性能。不同类型的特征可能适用于不同的模型。去野外。努力尝试,尝试尽可能多的功能和想法。

  1. 错误分析

确定模型能够很好预测和失败原因,考虑结果的原因以及你可以做些什么。

迭代3

  1. 改进可视化

增加对数据的可视化和演示,研究高票数的 EDA Notebook并学习如何构建出色的可视化。

  1. 发布你的EDA Notebook

使Kaggle成为如此出色平台的原因是Kagglers和社区,你也可以做一份贡献。

  1. 分享见解

在论坛发帖,或者写一些评论。你分享的越多,你学到的就越多,也会有更多的人帮助你。

迭代4

  1. 探索模型

这是您试验和构建大量模型以找出最有效的模型的机会,阅读并理解不同模型的内部工作原理很重要。

  1. 集成并组合模型

使用blend或者stacking将多个模型组合起来,并为每个基础模型搜索得到各自的特征空间和超参数。

最后:快跑起来

Reading without coding is bad.

Coding without understanding is bad.

Kaggle = 学 + 做,不断循环。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-08-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python数据科学 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 循序渐进
  • 迭代1
  • 迭代2
  • 迭代3
  • 迭代4
  • 最后:快跑起来
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档