前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >Kaggle | 如何解决提交错误

Kaggle | 如何解决提交错误

作者头像
老肥码码码
发布于 2022-04-13 08:51:01
发布于 2022-04-13 08:51:01
2.6K00
代码可运行
举报
运行总次数:0
代码可运行

老肥近期参加Kaggle平台的比赛,因为比赛类型为Code Competition,测试数据并不可见,我们需要将notebook代码在线提交进行推理,而因为测试集不可以见经常会遇到提交Error,同时报错完整的日志并不返回,只返回错误大类类型,在Debug时有一定程度上的困难。今天我便将之前遇到过的一些报错以及如何排查来做一个简单的总结回顾,使得自己在今后的提交尽量避免出错。

我们首先假设我们所要提交notebook在kaggle的notebook环境上能够正常运行,并且成功保存为新的版本,接下来对以下报错进行逐一分析(通常我们碰到的为前三类报错)。

1. Notebook Threw Exception

因为比赛所给出的sample_test文件仅包含极少量数据,最后线上用来预测的测试集可能和公开的数据集有差异的情况,这便是导致异常的罪魁祸首。举个曾经遇到过的例子,当我们使用Label Encoder对类别变量进行编码时,测试集中可能存在未曾出现过的类别,导致异常抛出。我们需要提高代码的健壮性,以应对未知测试集可能带来的异常情况。

2. Notebook Timeout

根据不同比赛的时间限制不同,我们需要在指定的时间内完成推理。为了避免超时错误,我们需要合理估计模型的推理时间,根据测试集的长度使用训练集来模拟推理(可以采用1/5、1/10的测试集数量的训练集以节约GPU时长)。超时错误经常发生在比赛后期多个模型进行融合时,我们应该控制整个推理时长在指定的时间内。除此之外,我们可以对代码进行优化,提升模型推理的速度,例如在Feedback比赛中,根据@hengck23在讨论区所提到的,我们可以对text的长度进行排序,将长度相仿的数据放入同个batch中,在batch中取最长的token来进行padding的方法以减少不必要的时间消耗(此方法提升推理速度约为6倍)。

3. Notebook Exceeded Allowed Compute

出现这种计算资源耗尽的问题通常有两种情况,一是显存在推理时超出16G爆掉,二是内存在推理时超出13G

我近期遇到的主要是使用内存超过容量,我们可以通过训练集制作与测试集大小相仿的数据,模拟进行推理,(模拟推理的时候可以采用输出与模型推理生成的结果形状尺度相同的随机数以节约宝贵的GPU时间),并时刻检查notebook的内存情况。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def memory_used_to_str():
    # https://stackoverflow.com/questions/61366458/how-to-find-memory-usage-of-kaggle-notebook
    pid = os.getpid()
    processs = psutil.Process(pid)
    memory_use = processs.memory_info()[0] / 2. ** 30
    return 'ram memory gb :' + str(np.round(memory_use, 2))

我们需要及时清除中间变量,并且尽可能的将代码调优以使用更小的内存空间。

对于显存超过容量的问题,我们可以使用较小的batch_size, 并且在加载完前一个模型并且完成推理保存结果后,及时清除显存,然后加载下一个模型。对于huggingface中预训练模型的加载,我们可以通过使用from_config而不是from_pretrained,后者可能会有异常的显存泄露导致OOM(来自@阁老师的discuss)。

4. Submission CSV Not Found

该错误是指比赛所指定的submission.csv文件未能找到。一种情况是我们生成的文件名不符合要求,注意生成的提交文件一定需要命名为submission.csv而不是其他;另外一种情况是notebook在运行时,遇到错误停止运行,未能生成提交文件。

5. Submission Scoring Error

我们需要按照比赛要求生成对应的提交文件,保证该提交文件的行数以及列数满足要求,保证输出的内容符合规范,以避免提交值无效,造成得分异常。

6. Kaggle Error

这种错误情况非常罕见,主要是平台内部导致的一些异常错误,我们仅需重新提交运行即可。

如果在以上错误排查后,仍然未能成功提交,请毫不犹豫地在Discuss区说出自己遇到的问题,热心的社区网友会给予有用的建议。最后,祝大家上分快乐,Happy Kaggling!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-03-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 算法与数据之美 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
MXNet | 手写字MNIST识别比赛
比赛的官网:https://www.kaggle.com/c/digit-recognizer
努力在北京混出人样
2019/02/18
6710
【深度学习基础】多层感知机 | 实战Kaggle比赛:预测房价
  之前几节我们学习了一些训练深度网络的基本工具和网络正则化的技术(如权重衰减、暂退法等)。本节我们将通过Kaggle比赛,将所学知识付诸实践。Kaggle的房价预测比赛是一个很好的起点。此数据集由Bart de Cock于2011年收集,涵盖了2006-2010年期间亚利桑那州埃姆斯市的房价。这个数据集是相当通用的,不会需要使用复杂模型架构。它比哈里森(Harrison)和鲁宾菲尔德(Rubinfeld)的波士顿房价数据集要大得多,也有更多的特征。
Francek Chen
2025/02/02
1430
【深度学习基础】多层感知机 | 实战Kaggle比赛:预测房价
Kaggle 赛题解析 | AMP 帕金森进展预测
文章目录 一、前言 二、比赛说明 1. Evaluation 2. Timeline 3. Prize 4. Code Requirements 三、数据说明 四、总结 🍉 CSDN 叶庭云:https://yetingyun.blog.csdn.net/ ---- 一、前言 竞赛题目:AMP®-Parkinson’s Disease Progression Prediction 竞赛地址:https://www.kaggle.com/competitions/amp-parkinsons-disea
叶庭云
2023/03/24
9940
Kaggle 赛题解析 | AMP 帕金森进展预测
Kaggle 新赛 | GoDaddy 微型企业密度预测
美国政策领导人努力发展更具包容性和抗衰退能力的经济体。他们也意识到,随着科技的进步,创业从来没有像今天这样容易。无论是创造一个更合适的工作/生活平衡,追随激情,还是由于失业,研究表明,越来越多的美国人选择创建自己的企业来实现他们的财务目标。挑战在于,这些 “微型企业” 往往规模太小或太新,无法在传统经济数据源中显示出来,因此决策者几乎不可能研究它们。但是,数据科学可以帮助填补这些空白,并提供与这些业务相关的因素的洞察力。
叶庭云
2022/12/23
9490
Kaggle 新赛 | GoDaddy 微型企业密度预测
从零开始学Pytorch(十九)之Kaggle上的狗品种识别
在本节中,我们将解决Kaggle竞赛中的犬种识别挑战,比赛的网址是https://www.kaggle.com/c/dog-breed-identification 在这项比赛中,我们尝试确定120种不同的狗。该比赛中使用的数据集实际上是著名的ImageNet数据集的子集。
墨明棋妙27
2022/09/23
3840
Kaggle 数据挖掘比赛经验分享
简介 Kaggle 于 2010 年创立,专注数据科学,机器学习竞赛的举办,是全球最大的数据科学社区和数据竞赛平台。笔者从 2013 年开始,陆续参加了多场 Kaggle上面举办的比赛,相继获得了 CrowdFlower 搜索相关性比赛第一名(1326支队伍)和 HomeDepot 商品搜索相关性比赛第三名(2125支队伍),曾在 Kaggle 数据科学家排行榜排名全球第十,国内第一。笔者目前在腾讯社交与效果广告部任职数据挖掘工程师,负责 Lookalike 相似人群扩展相关工作。此文分享笔者在参加数据挖掘
机器学习AI算法工程
2018/03/15
1.3K0
Kaggle 数据挖掘比赛经验分享
如何用卷积神经网络构建图像?
这张图片其实是由一个叫人工智能的程序生成的。是不是看起来很真实?非常不错,不是吗?
AI研习社
2019/07/23
8990
如何用卷积神经网络构建图像?
拉通对齐 梳理Kaggle竞赛组合拳!
参加Kaggle竞赛往往都需要较多的步骤,对于小白同学,完成完成所有的步骤是一件非常困难的事情。
Python数据科学
2021/09/08
7380
拉通对齐 梳理Kaggle竞赛组合拳!
免费GPU哪家强?谷歌Kaggle vs. Colab
作者 | Jeff Hale 译者 | Monanfei 责编 | 夕颜 出品 | AI科技大本营(id:rgznai100)
AI科技大本营
2019/06/14
6.8K0
免费GPU哪家强?谷歌Kaggle vs. Colab
如何入手卷积神经网络
从 Alex Krizhevsky 及其朋友通过 ImageNet 公布这项技术至今,不过才七年。ImageNet 是一个大规模图像识别竞赛,每年都会举办,识别种类达 1000 多种,从阿拉斯加雪橇犬到厕纸应用尽有。之后,他们又创建了 AlexNet,获得了 ImageNet 竞赛冠军,远超第二名。
机器之心
2019/06/05
6970
如何入手卷积神经网络
MXNet | LeNet-5(卷积神经网络)用于手写字识别
卷积神经网络参考:http://yann.lecun.com/exdb/lenet/ 比赛的官网:https://www.kaggle.com/c/digit-recognizer 若是下载数据集困难,可以去我的百度网盘下载:链接:http://pan.baidu.com/s/1sl50KjV 密码:ca56
努力在北京混出人样
2019/02/18
1.1K0
大数据竞赛平台-Kaggle入门篇
本文作者: wopon_ 来源:36大数据 本文长度为1500字,建议阅读4分钟 这篇文章适合那些刚接触Kaggle、想尽快熟悉Kaggle并且独立完成一个竞赛项目的网友,对于已经在Kaggle上参赛过的网友来说,大可不必耗费时间阅读本文。本文分为两部分介绍Kaggle,第一部分简单介绍Kaggle,第二部分将展示解决一个竞赛项目的全过程。如有错误,请指正! 1、Kaggle简介 Kaggle是一个数据分析的竞赛平台,网址:https://www.kaggle.com/ 企业或者研究者可以将数据、问题
小莹莹
2018/04/19
6.2K0
大数据竞赛平台-Kaggle入门篇
保姆级!一个新手入门 NLP 完整实战项目
分类模型还可用于解决一些起初并不明显合适的问题。例如 Kaggle 美国专利短语匹配[1]竞赛。在这项比赛中,我们的任务是比较两个单词或短语,并根据它们是否相似、在哪个专利类别中使用等因素进行评分。如果得分为 1,则认为这两个输入词具有相同的含义;如果得分为 0,则表示它们具有完全不同的含义。例如,abatement 和 eliminating process 得分为 0.5,表示它们有些相似,但不完全相同。
数据STUDIO
2023/09/04
3.7K0
保姆级!一个新手入门  NLP 完整实战项目
Kaggle获奖者自述比赛求生指南:我们如何“穿越”亚马逊热带雨林
作者:刘思聪 中山大学|计算机科学与技术研究生 来源自知乎专栏:AI带路党 量子位 已获授权编辑发布 大家好,我是思聪 · 格里尔斯,我将向您展示如何从世界上某些竞争最激烈的比赛中拿到金牌。我将面临一个月的比赛挑战,在这些比赛中缺乏正确的求生技巧,你甚至拿不到铜牌。这次,我来到了亚马逊热带雨林。 当我和我的队友们进入这片雨林的时候,这场长达三个月的比赛已经进行了两个月,想要弯道超车,后来居上,那可不是件容易的事。我们最后在比赛结束的时候,获得了Public Leaderboard第一, Private Le
量子位
2018/03/27
1.4K0
Kaggle获奖者自述比赛求生指南:我们如何“穿越”亚马逊热带雨林
从零开始,教初学者如何征战全球最大机器学习竞赛社区Kaggle竞赛
在学习过深度学习的基础知识之后,参与实践是继续提高自己的最好途径。本文将带你进入全球最大机器学习竞赛社区 Kaggle,教你如何选择自己适合的项目,构建自己的模型,提交自己的第一份成绩单。 本文将介绍数据科学领域大家都非常关心的一件事。事先完成一门机器学习 MOOC 课程并对 Python 有一些基础知识有助于理解文本,但没有也没关系。本文并不会向大家展示令人印象深刻的成果,而是回顾基础知识,试图帮助初学者找到方向。 文章结构: 1.介绍 2.Kaggle 综述 3.建立自己的环境 4.预测房价竞赛简介 5
企鹅号小编
2018/02/06
8610
从零开始,教初学者如何征战全球最大机器学习竞赛社区Kaggle竞赛
2020腾讯广告算法大赛——算法小白的复盘
《2020腾讯广告算法大赛》复赛已经接近尾声,作为一瓶初赛酱油,打算做个复盘,留个笔记,本来初赛结束就打算写的,被各种事情耽搁了,直到今天才动手开写
诡途
2022/05/09
9990
2020腾讯广告算法大赛——算法小白的复盘
【Kaggle竞赛】模型测试
是骡子是马拉出来溜溜就知道,一个模型好还是坏,放在全新的测试集上去测试下就知道了,根据模型测试的结果我们才能衡量模型的泛化性、稳定性等指标如何,从而方便我们根据测试的反馈去进行调参优化模型。
嵌入式视觉
2022/09/05
6010
【Kaggle竞赛】模型测试
[Kaggle] Spam/Ham Email Classification 垃圾邮件分类(spacy)
练习地址:https://www.kaggle.com/c/ds100fa19 相关博文: [Kaggle] Spam/Ham Email Classification 垃圾邮件分类(RNN/GRU/LSTM) [Kaggle] Spam/Ham Email Classification 垃圾邮件分类(BERT)
Michael阿明
2021/02/19
9830
[Kaggle] Spam/Ham Email Classification 垃圾邮件分类(spacy)
Kaggle ICR 赛题 LightGBM基础思路
Kaggle ICR比赛现在在进行中,这个比赛是一个典型的数据挖掘比赛,很适合入门学习。本文将介绍现在ICR基础的解决方案。
Python数据科学
2023/08/29
3070
Kaggle ICR 赛题 LightGBM基础思路
【数据竞赛】Kaggle ARC Top1方案解读
Kaggle:Abstraction and Reasoning Challenge Top1方案解读
黄博的机器学习圈子
2021/01/12
6800
【数据竞赛】Kaggle ARC Top1方案解读
推荐阅读
相关推荐
MXNet | 手写字MNIST识别比赛
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文