前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >机器学习-如何练习?

机器学习-如何练习?

作者头像
ACM算法日常
发布2018-08-07 18:09:17
5460
发布2018-08-07 18:09:17
举报
文章被收录于专栏:ACM算法日常

最近陆陆续续在看吴恩达老师的视频,说实话看英文视频真的很容易犯困

,不过还好教程讲得很清晰,基本不存在理解上的问题。

看了差不多一半了,发现有个问题,那就是这个教程没有实际的项目,虽然说教程里面一直讨论买房的价格问题,却还没开始动手操作,也许是讲到最后才能够开始解决好这个问题吧。

对于机器学习,往往需要一个训练集数据,可能会有预期的数据,这些数据自己去采集肯定不现实。

于是出现了一些类似于ACM练习平台一样的数据竞赛平台,每个项目都会提供完整的海量数据,而且这些都是有高额奖金的!其中最大的一个平台叫做Kaggle,国内也有一些平台,一起来看下

1、Kaggle

有意思的是,Kaggle的入门题是预测

《泰坦尼克号》

中能够生存下来的人。

(高额奖金

地址:https://www.kaggle.com

Kaggle是一个数据建模和数据分析竞赛平台。企业和研究者可在其上发布数据,统计学者和数据挖掘专家可在其上进行竞赛以产生最好的模型。这一众包模式依赖于这一事实,即有众多策略可以用于解决几乎所有预测建模的问题,而研究者不可能在一开始就了解什么方法对于特定问题是最为有效的。Kaggle的目标则是试图通过众包的形式来解决这一难题,进而使数据科学成为一场运动。2017年3月8日谷歌官方博客宣布收购Kaggle[1]。

竞赛流程

Kaggle中组织一场竞赛的过程如下。

竞赛主持人准备数据和问题的描述。Kaggle对这一过程以及竞赛的建构、数据的匿名化以及集成最终获胜的模型提供咨询服务。

参与者通过不同的方法进行实验,相互竞赛以获得最优的模型。对于大多数的参与者,他们的提交会根据预测精度被立即评分,并在实时的积分榜上显示。

在截止时间过后,竞赛主持人为“全球性的,永久性的,不可撤销和免版税地使用获奖作品”支付奖金。亦即竞赛获胜者的算法、软件和相关的知识产权是非排他性的,除非特别指明。

除了公开竞赛以外,Kaggle还向活跃参与者提供私下的比赛,以及为大学团体提供Kaggle-in-Class项目。

影响

根据Kaggle官方提供的数据,Kaggle在全球范围内拥有将近20万名数据科学家,专业领域从计算机科学到统计学、经济学和数学。Kaggle也曾经和NASA、维基百科、德勤和好事达合作举办竞赛。其中的一项奖项高达300万美金的竞赛是Heritage Health Prize,目的是通过病人看病及吃药住院等数据预测明年病人住院的天数。另一项与微软合作的竞赛则旨在提高Kinect的手势识别精度。

Kaggle的竞赛在艾滋病研究、棋牌评级和交通预测方面取得了成果。基于这些成果产生了一系列的学术论文。产生这一结果的原因是实时积分榜促使参加者不断改进以试图超越当前的最佳实践。获胜的方法常常在Kaggle的博客No Free Hunch上展示。

2、阿里天池

(阿里天池项目)

地址:https://tianchi.aliyun.com

最大规模、最“老字号”国内数据竞赛

天池的由来:

“天池”是阿里云旗下的大数据平台的名字。

2014年3月,马云爸爸在北京大学发起“天池大数据竞赛”。由此,阿里天池成为国内最早一批举办数据竞赛的组织。

首届天池大赛共有来自全球的7276支队伍参赛,海外参赛队伍超过148支。阿里巴巴集团为此开放了5.7亿条经过严格脱敏处理的数据。

天池亮点:

处理庞大的数据量往往需要配制好的PC作为支持。对于没有条件追求好配置的参赛者来说,这无疑是一个不利因素。然而天池竞赛最特别的地方就在于为选手提供了远程计算平台,即分布式计算平台。对于资源相对较少的同学而言,不仅加快了代码的运算速度,也增加了他们使用分布式计算平台的相关经验。

赛题分类:

从14年至今,天池一共举办过4界大数据竞赛,共31场。

每界按照数据量大小和赛题的难易程度分为不同赛季,用以甄选优秀的参赛选手。根据阿里旗下不同的服务产品,每次比赛的主题和数据集也五花八门:淘宝穿衣搭配算法(2015年赛题),蚂蚁金服资金流动预测(2015年赛题),阿里音乐流行趋势大预测(2016年赛题);也有由第三方平台提供的数据:交通数据模拟减轻道路拥堵(2014年首届赛题),市民出行公交线路预测(2015年赛题),白云机场客流量分析及预测(2016年赛题),新浪微博互动预测(2015年赛题)等。

3、数据城堡(Data Castle)

(数据城堡项目)

地址:http://www.pkbigdata.com

简介:最像Kaggle的数据竞赛平台

数据城堡的创始人,周涛,是成都电子科技大学教授,著名畅销书《大数据时代》译者。

数据城堡(Data Castle,以下简称DC)在2014年9月正式上线,在电子科大内引起巨大反响后,国内其他各个高校的学生也积极参与其中。DC和Kaggle十分相似,有各种各样的数据竞技比赛供选择。大家可以通过筛选自己感兴趣的话题,以个人或者团队的形式参赛,上传自己的代码并参与排行。奖励规则也与Kaggle相似,有现金作为直接激励,优秀参赛者也可能获得著名公司的数据岗位offer。作为专业数据竞赛平台,DC上比赛的数据量虽然不及天池,但他们仍然积极保持有持续的竞赛在展开。

赛题分类:

DC上竞赛题目的类型都和实际生活息息相关,大致可以分为三类:交通类,教育类,金融类。

交通类:出租车GPS数据、楼盘数据、微博签到数据、交通事故数据、公交线路数据、运营商GPS数据、天府通打卡数据(成都的交通卡)等

教育类:高校学生相关的生活消费数据、图书借阅数据、成绩数据、助学金数据、打卡门禁数据等

金融:用户属性数据、用户浏览行为数据、银行流水数据、信用卡账单数据、招标数据、工商数据、成都市企业信息及分布数据。

DC亮点:和Kaggle类似,DC上也有一个社区论坛,在那里大家可以交流自己写的code,交流技术问题或者认识一些志同道合的朋友。截止现在,DC共发起超过4万9千多个比赛,有超过3万个参赛者参加。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-04-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 ACM算法日常 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档