拉通对齐梳理Kaggle竞赛组合拳！

Python数据科学

发布于 2021-09-08 15:24:16

7010

发布于 2021-09-08 15:24:16

文章被收录于专栏：Python数据科学

参加Kaggle竞赛往往都需要较多的步骤，对于小白同学，完成完成所有的步骤是一件非常困难的事情。

本文展示了如何敏捷式逐步完成竞赛的过程，具体以Tabular Playground Series比赛为例。

https://www.kaggle.com/c/tabular-playground-series-jan-2021

循序渐进

继续练习你掌握的知识，不断尝试新事物。

迭代1

阅读比赛信息

阅读说明、评价、时间线、奖品和规则，可能有些比赛可能有更多的细节，所以养成阅读所有提供的信息和标签的习惯。

验证数据文件格式

阅读数据描述并查看数据文件：train、test、sample_submission。检查所有字段与描述是否匹配。

设置您的环境

将数据集下载到您的本地机器或使用免费的代码资源，如Kaggle Notebooks和Google Colab。

探索数据

探索数据。了解数据。在阅读其他人的分享之前，自己探索数据通常是个好主意。

阅读比赛论坛

比赛论坛有很多有用的信息和有趣的讨论，你应该关注论坛，或者不时检查新帖子和评论。

6. 阅读比赛Notebook

阅读公开的EDA和baseline Notebook，这是开始自己的代码的好地方，也可以跟随开源的进度。

建立一个基线模型

拥有一个非常基本的端到端模型，不一定需要是机器学习模型。

提交到排行榜

使用模型对测试数据进行预测，并将其提交给 Kaggle排行榜。

提出问题

根据上述操作，你或许有一些疑问，可以尝试在比赛论坛提出或者记录下自己的疑问。

迭代2

验证想法

验证想尝试想法，验证方法次数越多，越接近正确答案。

数据清洗

对原始数据集处理为最干净的形式，不同的数据集需要不同类型的预处理和转换，有时需要不同的模型。

特征工程

新功能可以显着提高模型性能。不同类型的特征可能适用于不同的模型。去野外。努力尝试，尝试尽可能多的功能和想法。

错误分析

确定模型能够很好预测和失败原因，考虑结果的原因以及你可以做些什么。

迭代3

改进可视化

增加对数据的可视化和演示，研究高票数的 EDA Notebook并学习如何构建出色的可视化。

发布你的EDA Notebook

使Kaggle成为如此出色平台的原因是Kagglers和社区，你也可以做一份贡献。

分享见解

在论坛发帖，或者写一些评论。你分享的越多，你学到的就越多，也会有更多的人帮助你。

迭代4

探索模型

这是您试验和构建大量模型以找出最有效的模型的机会，阅读并理解不同模型的内部工作原理很重要。

集成并组合模型

使用blend或者stacking将多个模型组合起来，并为每个基础模型搜索得到各自的特征空间和超参数。

最后：快跑起来

Reading without coding is bad.

Coding without understanding is bad.

Kaggle = 学 + 做，不断循环。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2021-08-31，如有侵权请联系 cloudcommunity@tencent.com 删除

google

本文分享自 Python数据科学微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度