机器学习如何入门?Kaggle CTO刚刚写了份详细的指南

李林 编译整理 量子位 出品 | 公众号 QbitAI

上周,Ben Hamner很忙。

作为全球最大数据科学和机器学习竞赛平台Kaggle的联合创始人&CTO,他在Quora上参加了一场AMA,还参加了一场机器学习会议。会议我们最后再说,先说AMA:它是ask me anything的首字母缩写,美国reddit、Quora等社区经常邀请名人参加这种在线问答活动,比如说盖茨就每年都会在reddit上搞AMA。

AMA中得票最高的答案是“研究机器学习和人工智能最好的资源是什么?”Hamner在答案中把机器学习的入门过程分成8步,写了一份详细的指南。量子位将要点编译如下:

你很幸运,要开始研究机器学习和人工智能,现在是比任何时候都好的时机。这个领域近年来在快速发展,专业人士发布并改进着高质量的开源软件工具和库,每天都有新的线上公开课和博客文章出现。机器学习在各个领域每天贡献着数十亿美元的营收,带来了无与伦比的资源和大量工作机会。

这也意味着,你在刚接触这个领域时会有被淹没的感觉。下面是我的入门方法,如果你在研究过程中卡住了,去Kaggle上搜索一下,很可能有人遇到过和你类似的问题,如果没有,可以在我们的论坛上发帖提问,这是个获得指引的好办法。

1. 找一个你感兴趣的问题

从一个你想解决的问题入手,会更容易集中精力,也更有学习的动力,这种方法比照着一份长得吓人的散乱知识点清单来学习要好很多。和被动地阅读相比,解决问题也能驱使你深入到机器学习之中。

好的入门问题有以下几个标准:

  • 涉及你个人感兴趣的领域;
  • 有现成的数据适合用来解决这个问题,否则你需要花大把的时间来找数据;
  • 你能够在一台机器上流畅地处理这些数据,或者它的子集。

想不出来要解决的问题?上Kaggle嘛……Kaggle有个入门系列竞赛,提供了适用于新手的机器学习问题。推荐从泰坦尼克号乘客的生还概率预测(https://www.kaggle.com/c/titanic)开始。

2. 做一个快速、脏乱、黑客范儿的端到端解决方案

初学者很容易陷入一个实现细节之中,或者为错误的机器学习算法仔细调试,你需要避免这种错误。你的目标,是尽可能快地把端到端的基本解决方法做出来:读入数据、把它处理成适用于机器学习的格式、训练一个基本的模型、得出结果、评估它的性能。

3. 改进你的解决方案

现在,基本功能已经实现,发挥创造性的时候到了。你可以尝试对最初解决方案中的每个组件进行优化,然后测试修改带来的作用,搞清楚该在哪个部件上花时间。通常来说,获取更多的数据或者请洗数据之类的预处理步骤,比优化机器学习模型有着更高的投入产出比。

这些步骤可能需要你亲自上手处理数据,比如说通过检查特定的某一行、通过可视化方法来查看数据分布等方式,来更好地理解数据的结构和怪癖。

4. 写出来你的解决方案&分享

想要获得别人对你的解决方案的反馈,最好的方法就是写出来并分享。写出你的解决方案意味着你会以新的方式去看它,并加深理解,也能让别人理解你的工作并做出反馈、帮你学习进步。写作也有助于开始建立机器学习作品集,来展示你的能力,对找工作很有帮助。

我们以Kaggle数据集和Kaggle Kernels为例,它们分别可以用来分享数据和解决方案,从而获得反馈,看其他人如何对你的问题进行扩展。这也是丰富你的Kaggle资料的办法。

5. 在更多问题上重复1-4步

现在,你已经完成了一个自己喜欢的问题,接下来应该在不同领域的问题上多试几次。

你在入门的时候是不是用了表格式的数据?选一个要用到非结构化文本的问题,再试试解决图像相关的问题。

你是不是先解决了一个结构化的机器学习问题?很多有价值的创造性工作,一开始都有赖于从宽泛的商业或研究对象找到一个定义清晰的机器学习问题。

Kaggle竞赛和数据集为机器学习的两个方面:定义清晰的机器学习问题和原始数据来源提供了一个良好的起步点。

6. 认真地参加Kaggle竞赛

和上千人比赛着去解决同一个问题,尽力做到最好,是一个很好的学习机会,这能够驱使你在这个问题上不断迭代,找到解决问题的有效途径。

关于其他人是怎样解决问题排除bug的,针对某个竞赛的论坛上有着丰富的资源,kernels体现了其他人对数据的洞察,并且给你提供了一个轻易的上手途径,获胜者的博客文章则展示了什么样的方法效果最好。

Kaggle竞赛提供了和别人组队的机会,我们的社区成员有着不同的背景和技能,每个人都能从其他人身上学到东西。

7. 在专业领域应用机器学习

这让你在大部分时间中都能接触到机器学习,有助于自我提升。决定你想要成为什么样的角色、建立和这个角色相关的个人项目列表,是一个很好的开端。

如果你还没准备好应聘机器学习相关职位,也可以在你现在的岗位上开辟新项目、寻找提供咨询的机会、参与黑客马拉松和数据相关的社区服务机会、这些都能帮你在机器学习领域立足。专业领域的工作通常需要比较强的编程能力。

在专业领域应用机器学习,有这些价值的机会:

  • 将机器学习用于生产系统;
  • 专注于机器学习研究,将技术发展的最高水平向前推进;
  • 用机器学习进行探查、分析,来提升你的产品和商业决策。

8. 帮助别人研究机器学习

教人学习能帮你巩固对基础概念的掌握。教别人有很多不同的方法,你可以根据自己的风格选一个:

  • 写论文;
  • 做演讲;
  • 写博客文章和教程;
  • 在Kaggle、Quora等网站上回答问题;
  • 亲自指导;
  • 在Kaggle Kernels和GitHub上分享代码;
  • 讲课;
  • 写书。

One More Thing…

这次AMA,其实Hamner最想谈的是Kaggle的未来,他在资料里列出了自己愿意回答的话题:

Kaggle的未来

开放数据

Kaggle竞赛

机器学习和AI

数据科学工作流程

产品和工程

Kaggle为何加入Google

可惜Quora上的群众对Kaggle的未来似乎并不关心,反正竞赛照常举行,数据集照常提供,量子位也不知道这个未来该从何问起。

不过,吃瓜群众不关心Kaggle的未来也没关系。周五,Hamner还去纽约的机器学习大会MLConf上做了以《Kaggle的未来:我们从何处来,到何处去》的演讲。

本文分享自微信公众号 - 量子位(QbitAI)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-03-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏FSociety

SQL中GROUP BY用法示例

GROUP BY我们可以先从字面上来理解,GROUP表示分组,BY后面写字段名,就表示根据哪个字段进行分组,如果有用Excel比较多的话,GROUP BY比较类...

5.2K20
来自专栏怀英的自我修炼

考研英语-1-导学

英二图表作文要重视。总体而言,英语一会比英语二难点。不过就写作而言,英语二会比英语一有难度,毕竟图表作文并不好写。

12110
来自专栏腾讯高校合作

【倒计时7天】2018教育部-腾讯公司产学合作协同育人项目申请即将截止!

15920
来自专栏微信公众号:小白课代表

不只是软件,在线也可以免费下载百度文库了。

不管是学生,还是职场员工,下载各种文档几乎是不可避免的,各种XXX.docx,XXX.pptx更是家常便饭,人们最常用的就是百度文库,豆丁文库,道客巴巴这些下载...

44630
来自专栏钱塘大数据

中国互联网协会发布:《2018中国互联网发展报告》

在2018中国互联网大会闭幕论坛上,中国互联网协会正式发布《中国互联网发展报告2018》(以下简称《报告》)。《中国互联网发展报告》是由中国互联网协会与中国互联...

13750
来自专栏前端桃园

知识体系解决迷茫的你

最近在星球里群里都有小伙伴说道自己对未来的路比较迷茫,一旦闲下来就不知道自己改干啥,今天我这篇文章就是让你觉得一天给你 25 个小时你都不够用,觉得睡觉都是浪费...

22340
来自专栏钱塘大数据

理工男图解零维到十维空间,烧脑已过度,受不了啦!

让我们从一个点开始,和我们几何意义上的点一样,它没有大小、没有维度。它只是被想象出来的、作为标志一个位置的点。它什么也没有,空间、时间通通不存在,这就是零维度。

34330
来自专栏腾讯社交用户体验设计

ISUX Xcube智能一键生成H5

51420
来自专栏Ken的杂谈

【系统设置】CentOS 修改机器名

18230
来自专栏haifeiWu与他朋友们的专栏

复杂业务下向Mysql导入30万条数据代码优化的踩坑记录

从毕业到现在第一次接触到超过30万条数据导入MySQL的场景(有点low),就是在顺丰公司接入我司EMM产品时需要将AD中的员工数据导入MySQL中,因此楼主负...

30040

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励