AI 研习社按:本文由 Anthony Goldbloom 发布于 Kaggle 官方 blog,本文先是总结了 Kaggle 在 2017 年里取得的巨大成就,然后对 2018 的新工作做了展望。雷锋网 AI 研习社对本文进行了编译。Kaggler 们想知道将会发生哪些变化吗?那就赶紧过来看看吧! 2017 年是 Kaggle 取得巨大发展的一年。这一年,除了加入 Google,我们还从一个主要关注机器学习竞赛的社区,扩展成一个更广泛的数据科学和机器学习平台。今年,我们的公开数据集的下载量和 Kaggle
然后就会报错,提示没有kaggle.json文件,不用理他。 这一步主要是让其运行后生成配置文件夹,一般在C盘-用户-用户名下的.kaggle
注册 Kaggle 账号。登陆账号,进入用户账户页面 https://www.kaggle.com/<username>/account , 在 API 栏目,点击 Create API Token 按钮,触发浏览器下载包含 API 凭证的 json 文件 kaggle.json 。将此文件放到 ~/.kaggle/kaggle.json 路径下(Windows 系统路径是 C:\Users\<Windows-username>\.kaggle\kaggle.json)。
在前面的两篇文章中已经分享过一些公开数据集,今天我将继续分享kaggle上可下载的医学影像公开数据集给大家。
众所周知,arXiv 是我们搜索、浏览和下载学术论文的重要工具。近 30 年来,arXiv 为公众和研究社区提供了开放获取学术论文的服务。这些论文涉及物理学的庞大分支和计算机科学的众多子学科,如数学、统计学、电气工程、定量生物学和经济学等等。
链接:https://www.jianshu.com/p/ab35ed21df87
共享单车数据集,包括骑行时间、会员骑行时间、会员类型、骑行路线类别、开始时间、结束时间、开始站点、结束站点、经度纬度等等。
在这篇文章中,我会分享 23 个优秀的公共数据集,除了介绍数据集和数据示例外,我还会介绍这些数据集各自可以解决哪些问题。
作者 | Nikola M. Zivkovic 译者 | 王强 策划 | 凌敏 本文最初发布于rubikscode.com网站,经原作者授权由 InfoQ 中文站翻译并分享。 Iris 数据集的那些示例你是不是已经用腻了呢?不要误会我的意思,Iris 数据集作为入门用途来说是很不错的,但其实网络上还有很多有趣的公共数据集可以用来练习机器学习和深度学习。在这篇文章中,我会分享 23 个优秀的公共数据集,除了介绍数据集和数据示例外,我还会介绍这些数据集各自可以解决哪些问题。 以下是这 23 个公共数据集: 帕
今天,谷歌推出了目前世界上最大的人造和自然地标识别数据集Google-Landmarks。数据集中包含200万张图片,描述了3万处全球独特地标,量级是普通的数据集的30倍。 △ 数据集中地标的位置分布
内容概要:近期在 Kaggle 的数据集中,我们发现了一个独特的秃头人像数据集,作者整理了 20 万张秃头人像,共计 1.3 G大小。
推荐系统(推荐引擎)是根据用户行为和兴趣点等信息去预测并推送用户当前需要或感兴趣的物品(服务)的一类应用。常见推荐系统包括电影、书籍、音乐或新闻文章推荐系统等。
人工智能的应用非常广泛,尤其是在医疗领域。先进的人工智能工具可以帮助医生和实验室技术人员更准确地诊断疾病。例如,尼日利亚的一位医生可以使用这个工具从他根本不了解的血液样本中识别出一种疾病,这有助于他更好地理解疾病,从而可以更快地开发出治疗方法,这是人工智能民主化的一个优势,因为AI模型和工具可以在全世界范围内使用,尼日利亚的医生可以使用与麻省理工学院或世界上任何大学的研究学者使用的相同的工具和技术。
分类模型还可用于解决一些起初并不明显合适的问题。例如 Kaggle 美国专利短语匹配[1]竞赛。在这项比赛中,我们的任务是比较两个单词或短语,并根据它们是否相似、在哪个专利类别中使用等因素进行评分。如果得分为 1,则认为这两个输入词具有相同的含义;如果得分为 0,则表示它们具有完全不同的含义。例如,abatement 和 eliminating process 得分为 0.5,表示它们有些相似,但不完全相同。
近日Kaggle新上了一个比赛:HuBMAP: Hacking the Kidney ,(入侵肾脏),是人类生物分子图谱计划HuBMAP的一部分,希望以单细胞分辨率绘制人类肾脏图谱开始。
选自微软机器学习博客 机器之心编译 参与:陈韵竹、路雪 本文介绍了如何使用微软 DVSM、利用迁移学习技术在 20 多分钟时间内达到 Kaggle 猫狗识别竞赛的第二名的性能。 引言 几周前,我写了一
如果是一位尚未尝试过数据科学项目的初学者,那么从“没有经验”的起点到称为“专家”的非常理想的目的地的可能过渡只不过是数据集。
编译 | 姗姗 出品 | 人工智能头条(公众号ID:AI_Thinker) 【人工智能头条导读】Kaggle,对于很多学习并从事数据科学和机器学习的同学们来说应该一点也不陌生。除了每年举办一次的 Kaggle 竞赛被大家广泛关注着,相信老司机们更是经常使用 Kaggle 的数据集并在上面进行实践练习。李飞飞也对 Kaggle 评论道:“Kaggle 是搜寻、分析公共数据集,开发机器学习模型,和提高数据科学专业水平的最佳场所。” 去年 Google 收购 Kaggle ,并提出 “推动 AI 技术的分享和推广
练习地址:https://www.kaggle.com/c/sentiment-analysis-on-movie-reviews 相关博文: [Kaggle] Spam/Ham Email Classification 垃圾邮件分类(BERT)
这篇文章包括了神经网络在kaggle泰坦尼克生存数据集上的应用程序。它帮助读者加深他们对神经网络的理解,而不是简单地执行吴恩达代码。泰坦尼克生存数据集就是可以随意使用的一个例子。 Github repo上的代码地址: https://github.com/jaza10/AppliedNeuralNetworkTitanicSurvival 1.下载“深度神经网络应用程序”和来自Coursera中心的“dnn_utils_v2.py”文件,并将其保存在本地 Github repo不包含deeplearning
在数据科学领域,可用的资源非常的多:从Datacamp到Udacity再到KDnuggets,在网上有很多可以在线学习数据科学的地方。但是,如果你是一个喜欢在实践中学习的人,那么Kaggle可能是让你通过实践数据科学项目提高自己的最佳地点。
大数据文摘作品 作者:龙牧雪 2017年3月,数据科学和机器学习竞赛领域的老大Kaggle被谷歌收购,点击查看大数据文摘报道《谷歌宣布收购全球最大数据科学社区Kaggle》,当时双方均未透露收购细节和未来计划。接近一年过去了,Kaggle在做什么? Kaggle由Anthony Goldbloom和Ben Hamner创立于2010年。企业和研究人员在Kaggle上发布数据,让全世界的统计师和数据科学家对数据集进行建模和分析,以竞赛的形式评选出最佳模型。Kaggle众包竞赛模式的价值在于,让人们有可能从无穷
这是Facebook联合亚马逊、微软、“AI伙伴关系”以及各路学者,一同举办的比赛。
在机器学习项目中,如果使用的是比较小的数据集,数据集的处理上可以非常简单:加载每个单独的图像,对其进行预处理,然后输送给神经网络。但是,对于大规模数据集(例如ImageNet),我们需要创建一次只访问一部分数据集的数据生成器(比如mini batch),然后将小批量数据传递给网络。其实,这种方法在我们之前的示例中也有所涉及,在使用数据增强技术提升模型泛化能力一文中,我就介绍了通过数据增强技术批量扩充数据集,虽然那里并没有使用到超大规模的数据集。Keras提供的方法允许使用磁盘上的原始文件路径作为训练输入,而不必将整个数据集存储在内存中。
去年谷歌发布了全球最大的地标数据集,现在,谷歌又发布了一个全新的、更大的地标数据集。这个数据集中包括500万张图片,是去年的两倍,地标数量达到20万,是去年的大约7倍。
数据可视化项目的良好数据集是公开发布数据的新闻网站,他们通常会提供清理过的数据,并且已经有了可以复制或改进的图表,我们既可以从这些图表中找寻灵感,也可以对这些图表直接进行二次改进
比赛的官网:https://www.kaggle.com/c/digit-recognizer
大数据文摘作品 作者:龙牧雪 魏子敏 今日凌晨,全球最大的数据科学社群Kaggle发布了第一份数据科学/机器学习业界现状调查报告。这份调查问卷的受访者囊括了来自50多个国家的16,000+位从业者,根据他们的问卷结果,Kaggle给出了一些有趣的结论: 1、Python可能是机器学习最常用的编程语言,而统计学家更多地使用R语言; 2、数据科学家的年龄中位数是30岁,而各国差异巨大,比如,印度的受访人比澳大利亚平均年龄年轻9岁; 3、受访者中硕士学位所占比重最大,但薪水最高的从业者($150k)多数拥有博士学
感谢西交利物浦大学西浦国际创新港为本次教程提供NVIDIA DGX Station。
西交利物浦国际创新港致力于构建创新创业环境,使西交利物浦大学成为联结中国与世界创新创业的全球无缝衔接驱动中心。
本文为原作者投稿,原载于知乎,感谢对“我爱计算机视觉”的支持。也欢迎其他愿意进行技术分享、扩大个人影响力的朋友投稿,谢谢!
摘要: 你是否为研究数据挖掘预测问题而感到兴奋?那么如何开始呢,本案例选自Kaggle上的数据竞赛的一个数据竞赛项目《泰坦尼克:灾难中的机器学习》,案例涉及一个小型数据集及到一些有趣且易于理解的参数,是一个完美的机器学习入口。 泰坦尼克号在进行从英国到纽约的处女航时,不幸的撞到了冰山上并沉没。在这场比赛中,你必须预测泰坦尼克号上乘客们的命运。 在这场灾难中,惊恐的人们争先恐后地逃离正在沉没的船是最混乱的事。“女士和儿童优先”是这次灾难中执行的著名准则。由于救生艇数量不足,只有一小部分乘客存活下来。在接
关于汽车的项目很多,比如拍照识车、汽车比价等等,尽管这些项目本身难度不大,但是往往受制于数据集的质量,模型的效果不能很好的发挥。
https://rpubs.com/nabiilahardini/wheatseed
AI科技评论消息,近日,Kaggle平台上公布了Twitter客户支持数据集,这个数据集包括来自大企业的超百万条推文与回复,大家可以利用这个数据集做很多有意思的工作。数据集的具体信息如下所示,AI科技评论编辑整理如下: Twitter客户支持数据集(Customer Support)是一个庞大的推文与回复语料库,这个数据集比较现代化,有助于自然语言理解和会话模型的创新,也对客户支持实践与影响效果的相关研究有所帮助。 背景 自然语言处理(NLP)目前仍然需要密集的编码方式,NLP中的创新加速了对数据的理解
Dataset Search 测试版地址:https://toolbox.google.com/datasetsearch
参加Kaggle竞赛往往都需要较多的步骤,对于小白同学,完成完成所有的步骤是一件非常困难的事情。
学习理论之外,自己寻找资源动手实践,在实际做项目中巩固了习得的理论知识,并进一步体会到了日常积累的重要性。
http://www.datatang.com/about/about-us.html
相信很多小伙伴在做数据分析或者可视化的时候,经常会遇到——方法工具都有了,但是数据,数据,数据没有啊!
Kaggle是最著名的机器学习竞赛网站。Kaggle竞赛由一个数据集组成,该数据集可以从网站上获得,需要使用机器、深度学习或其他数据科学技术来解决问题。一旦你发现了一个解决方案,你就可以把你的模型结果上传到网站上,然后网站根据你的结果对你进行排名。如果你的结果可以击败其他参赛选手,那么你可能获得现金奖励。
要实现完全自动驾驶,尚未解决的关键问题之一是预测自动驾驶汽车附近物体的行为。使用我们的 Prediction 数据集和 L5Kit 工具包,即使你之前没有自动驾驶相关经验,也可以在一个空闲的下午或周末开始构建运动预测模型。如果成功的话,你可以帮助推动自动驾驶行业作为一个整体向前发展,如果你的解决方案在 Kaggle 竞赛中名列前茅,你甚至可以获得我们3万美元奖金池的一部分。
众所周知,神经网络可用于解决分类问题,例如,它们被用于手写体数字分类,但问题是,如果我们将它们用于回归问题,它会有效果吗?
人工智能风头正盛,无论你是支持还是怀疑,AI对这个时代的影响都已逐渐渗透到各行各业当中,哪怕身处非互联网行业,也能感受到AI的滚滚浪潮。
我从 2017 年年初开始接触 Kaggle。曾翻阅知乎上很多关于 Kaggle 的回答和文章,然而逐渐发现大部分文章中提到的经验和技巧是针对传统 machine learning 类比赛的,对计算机视觉类的比赛并不适用。此刻已是 2018 年 6 月,我也参加过了多次比赛,或多或少有了一些自己的观点和感想。因此我写这一篇文章希望对现存文章进行一定程度的补充,以供刚刚接触 Kaggle 计算机视觉(CV)类比赛的同学参考。尽管此文会充斥个人观点和猜测,我会尽量提供论据并淡化感情色彩。这是我在知乎的第一篇文章,希望大家能够多多鼓励和批评。
数字手写体识别数据集,常用来作为Deep Learning入门的基础数据集。它有60000个训练样本集和10000个测试样本集,每个样本图像的宽高为28×28。此数据集是以二进制存储的,不能直接以图像格式查看,不过很容易找到将其转换成图像格式的工具。 数据集大小:~12MB 下载地址:http://yann.lecun.com/exdb/mnist/index.html
领取专属 10元无门槛券
手把手带您无忧上云