机器学习-如何练习?

最近陆陆续续在看吴恩达老师的视频,说实话看英文视频真的很容易犯困

,不过还好教程讲得很清晰,基本不存在理解上的问题。

看了差不多一半了,发现有个问题,那就是这个教程没有实际的项目,虽然说教程里面一直讨论买房的价格问题,却还没开始动手操作,也许是讲到最后才能够开始解决好这个问题吧。

对于机器学习,往往需要一个训练集数据,可能会有预期的数据,这些数据自己去采集肯定不现实。

于是出现了一些类似于ACM练习平台一样的数据竞赛平台,每个项目都会提供完整的海量数据,而且这些都是有高额奖金的!其中最大的一个平台叫做Kaggle,国内也有一些平台,一起来看下

1、Kaggle

有意思的是,Kaggle的入门题是预测

《泰坦尼克号》

中能够生存下来的人。

(高额奖金

地址:https://www.kaggle.com

Kaggle是一个数据建模和数据分析竞赛平台。企业和研究者可在其上发布数据,统计学者和数据挖掘专家可在其上进行竞赛以产生最好的模型。这一众包模式依赖于这一事实,即有众多策略可以用于解决几乎所有预测建模的问题,而研究者不可能在一开始就了解什么方法对于特定问题是最为有效的。Kaggle的目标则是试图通过众包的形式来解决这一难题,进而使数据科学成为一场运动。2017年3月8日谷歌官方博客宣布收购Kaggle[1]。

竞赛流程

Kaggle中组织一场竞赛的过程如下。

竞赛主持人准备数据和问题的描述。Kaggle对这一过程以及竞赛的建构、数据的匿名化以及集成最终获胜的模型提供咨询服务。

参与者通过不同的方法进行实验,相互竞赛以获得最优的模型。对于大多数的参与者,他们的提交会根据预测精度被立即评分,并在实时的积分榜上显示。

在截止时间过后,竞赛主持人为“全球性的,永久性的,不可撤销和免版税地使用获奖作品”支付奖金。亦即竞赛获胜者的算法、软件和相关的知识产权是非排他性的,除非特别指明。

除了公开竞赛以外,Kaggle还向活跃参与者提供私下的比赛,以及为大学团体提供Kaggle-in-Class项目。

影响

根据Kaggle官方提供的数据,Kaggle在全球范围内拥有将近20万名数据科学家,专业领域从计算机科学到统计学、经济学和数学。Kaggle也曾经和NASA、维基百科、德勤和好事达合作举办竞赛。其中的一项奖项高达300万美金的竞赛是Heritage Health Prize,目的是通过病人看病及吃药住院等数据预测明年病人住院的天数。另一项与微软合作的竞赛则旨在提高Kinect的手势识别精度。

Kaggle的竞赛在艾滋病研究、棋牌评级和交通预测方面取得了成果。基于这些成果产生了一系列的学术论文。产生这一结果的原因是实时积分榜促使参加者不断改进以试图超越当前的最佳实践。获胜的方法常常在Kaggle的博客No Free Hunch上展示。

2、阿里天池

(阿里天池项目)

地址:https://tianchi.aliyun.com

最大规模、最“老字号”国内数据竞赛

天池的由来:

“天池”是阿里云旗下的大数据平台的名字。

2014年3月,马云爸爸在北京大学发起“天池大数据竞赛”。由此,阿里天池成为国内最早一批举办数据竞赛的组织。

首届天池大赛共有来自全球的7276支队伍参赛,海外参赛队伍超过148支。阿里巴巴集团为此开放了5.7亿条经过严格脱敏处理的数据。

天池亮点:

处理庞大的数据量往往需要配制好的PC作为支持。对于没有条件追求好配置的参赛者来说,这无疑是一个不利因素。然而天池竞赛最特别的地方就在于为选手提供了远程计算平台,即分布式计算平台。对于资源相对较少的同学而言,不仅加快了代码的运算速度,也增加了他们使用分布式计算平台的相关经验。

赛题分类:

从14年至今,天池一共举办过4界大数据竞赛,共31场。

每界按照数据量大小和赛题的难易程度分为不同赛季,用以甄选优秀的参赛选手。根据阿里旗下不同的服务产品,每次比赛的主题和数据集也五花八门:淘宝穿衣搭配算法(2015年赛题),蚂蚁金服资金流动预测(2015年赛题),阿里音乐流行趋势大预测(2016年赛题);也有由第三方平台提供的数据:交通数据模拟减轻道路拥堵(2014年首届赛题),市民出行公交线路预测(2015年赛题),白云机场客流量分析及预测(2016年赛题),新浪微博互动预测(2015年赛题)等。

3、数据城堡(Data Castle)

(数据城堡项目)

地址:http://www.pkbigdata.com

简介:最像Kaggle的数据竞赛平台

数据城堡的创始人,周涛,是成都电子科技大学教授,著名畅销书《大数据时代》译者。

数据城堡(Data Castle,以下简称DC)在2014年9月正式上线,在电子科大内引起巨大反响后,国内其他各个高校的学生也积极参与其中。DC和Kaggle十分相似,有各种各样的数据竞技比赛供选择。大家可以通过筛选自己感兴趣的话题,以个人或者团队的形式参赛,上传自己的代码并参与排行。奖励规则也与Kaggle相似,有现金作为直接激励,优秀参赛者也可能获得著名公司的数据岗位offer。作为专业数据竞赛平台,DC上比赛的数据量虽然不及天池,但他们仍然积极保持有持续的竞赛在展开。

赛题分类:

DC上竞赛题目的类型都和实际生活息息相关,大致可以分为三类:交通类,教育类,金融类。

交通类:出租车GPS数据、楼盘数据、微博签到数据、交通事故数据、公交线路数据、运营商GPS数据、天府通打卡数据(成都的交通卡)等

教育类:高校学生相关的生活消费数据、图书借阅数据、成绩数据、助学金数据、打卡门禁数据等

金融:用户属性数据、用户浏览行为数据、银行流水数据、信用卡账单数据、招标数据、工商数据、成都市企业信息及分布数据。

DC亮点:和Kaggle类似,DC上也有一个社区论坛,在那里大家可以交流自己写的code,交流技术问题或者认识一些志同道合的朋友。截止现在,DC共发起超过4万9千多个比赛,有超过3万个参赛者参加。

原文发布于微信公众号 - ACM算法日常(acm-clan)

原文发表时间:2018-04-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

谷歌深圳开办事处,想应聘?先来看看谷歌招过什么样的实习生

17330
来自专栏量子位

别打了别打了,天上无人机看着呢 | AI分析暴力姿势

天空之眼 (Sky In the Eye) ,不只是斯内普教授的遗作,也是一组研究人员为自己的新论文,选定的题目。

10620
来自专栏华章科技

北大教授李忠:谁说学数学只是为了升学?数学可以让你受益终生!

导读:一个人,从小学、中学甚至到大学,都得学数学。为什么要学这么多数学呢?其意义究竟何在?

29030
来自专栏新智元

AI创作了史上第一部小说,读完之后我懵了

去年,一位小说家进行了一次横穿美国的公路旅行。这次旅行是为了效仿Jack Kerouac——在旅途中寻找一些重要的东西,并写下了自己的经历。

8130
来自专栏数据科学与人工智能

【统计学习】写给在学习统计的学弟学妹

在其他论坛看到一篇写如何学统计的文章,作者侃侃而谈,语言也不失幽默,更重要的是,平实的表述中却把很多读统计的童鞋共有的感受和疑问一同归纳总结了出来。楼主看过之后...

21890
来自专栏PPV课数据科学社区

【工具】R语言学习参考图书不完全指南

这里大部分都是英文的书。国内对于R的书籍的翻译中文几乎可以忽略的说。 1.入门级读物 R的帮助文档中提供了一些入门的读物,比如《Anintroduction t...

23830
来自专栏华章科技

【膜拜大神】当今世界最牛的25位顶尖大数据科学家

在大数据技术飞速发展的今天,谁才是我们大数据科研与工业界中最有威望的科学家呢?下面我们来进行梳理,共罗列了25位当今世界,无论是在学术与工业界都产生巨大影响的数...

13020
来自专栏专知

走近Hinton:AI教父传奇人生

【导读】Geoffrey Hinton花费了30年的时间默默无闻,直到2012年,他证明了其研究的价值,并驳回了大多数其他科学家所谓的正确观点。如今,这个被称为...

40760
来自专栏大数据文摘

2017论文回顾 | Yann LeCun:中英日韩语文本分类通用编码机制(附论文下载)

16830
来自专栏机器之心

人物 | Geoffrey Hinton的成功之路:从神经网络黑暗时代的坚守到今天的胜利

选自The Globe and Mail 作者:Jeff Gary 机器之心编译 参与:吴攀、黄小天、Ellen Han 深度学习泰斗 Geoffrey Hin...

24540

扫码关注云+社区

领取腾讯云代金券