一周入门机器学习靠谱吗?这有一份详细的学习日程表

大数据文摘作品,转载要求见文末

原作者 | Per Harald Borgen

编译 | 魏子敏,赖小娟,张礼俊

对外行来说,想要入门机器学习可能是个不可完成的任务。然而,在沉溺于一周的机器学习基础学习之后,我发现它比我之前想象的更容易理解。

这篇文章来自于medium,一位作者亲历了一周入门机器学习后,分享他的“从下到上”的学习经验给各位,希望给那些有兴趣入门机器学习的读者一个容易上手的详细日程表

背景

在我开始我的机器学习周之前,我已经了解这个项目一段时间了,浏览了一半Coursera上Andrew NG的课程和其他一些理论性课程。虽然我还不能完全将我的知识转化成代码,但对机器学习已经有了大致的概念理解。这也是促使我想改变的原因。

我想要一周结束之时有能力解决机器学习的问题,虽然这意味着会跳过很多基础知识,使用从上到下的学习方法代替从底层到高层的方式。

在征得Hacker News的意见之后,我总结出Python的Scikit Learn模型是最好的开始入口点。这个模型提供了丰富的算法可供选择,将机器学习实战降低在数十行代码之内。

星期一:实例学习

在一周的开始,我去寻找一些Scikit Learn的视频教学,最后我选择了Sentdex的关于怎么样用机器学习投资股票的辅导视频,这个视频给了我继续下一步学习的必要知识。

Sentdex辅导视频比较好的一方面是导师展示了关于数据收集的所有步骤。当你们顺着再往下学习,你们会意识到获取和清洗数据的时间会比实际机器学习操作的时间还要多很多。因此有能力写出脚本从文件和网页上抓取到数据是成为机器学习专家的必要技能。

之后我还反复看了好几遍这个视频,在我被问题卡住的时候很有帮助,建议你们也多看几遍。然而,如果你已经知道怎么从网站上获得数据,这个教程可能不是最合适的,大段大段的围绕着数据的获取。Udacity的机器学习入门教程或许更适合你。

星期二:实际问题中的应用

星期二我想看看我是不是可以用我学到的东西去解决一个实际的问题。由于和我合作写代码的另一个开发人员正在参加英格兰银行的数据可视化竞赛,我跟他一起合作查看了银行公布的数据集。最有趣的数据是关于他们房屋调查,一个由银行完成的基于几千个家庭关于钱的相关主题的年度调查。

我们决定解决的问题如下:

给出一个人的教育水平、年龄和收入,计算机可以预测到其性别么?

我跟数据集周旋,花了几个小时清洗数据,然后用Scikit Learn图找到最适合这个问题的算法。

最后我们以大概63%的成功率结束,并不是很理想。但是机器至少可以做到猜出的概率稍大于成功率在50%的抛硬币。

看到成果会激发你们的动力,所以我建议你们一旦对怎么使用Scikit Learn有一个基本掌握,可以自己试试。

当你意识到你能够开始用机器学习解决真实生活问题时,这是一个关键的时刻。

星期三:从头开始

在尝试过不同Scikit Learn模型之后,我决定试着去彻底地写一个线性回归算法。之所以想这样做,虽因为我觉得我实在不明白计算引擎是如何运行的。

幸运地,Coursera上有关于几个算法如何执行的课程,在这个时候帮了大忙。更具体地说,它描述了线性回归的基础概念。

这绝对是最有效的机器学习技术,它迫使你去明白“引擎之下”的每一步是如何前行的。我强烈推荐你在某些时刻这样去做。

当我继续往下学的时候我计划重写更复杂的实现算法,但是我想在尝试Scikit Learn相关算法之后再做这些。

星期四:开始实现

在星期四的时候,我开始实现一些Kaggle的入门教程。Kaggle是一个机器学习竞赛的平台,你可以给那些公司或机构的发布的问题提交解决方案。

我建议你在有了对机器学习一定的理论和实践理解之后再尝试Kaggle。否则,带给你比奖励更多的是沮丧。

为了提交你的方案到竞赛平台上,词袋教程会指导你每一步骤,以及一个简单而又让人兴奋的对自然语言处理过程的介绍。当我看完教程之后对自然语言处理过程有了更多的兴趣。

星期五:重回学校

星期五,我继续研究Kaggle的教程,也开始了Udacity的机器学习入门教程。虽然我还在学习中段,但是发现它真的很令人享受。

它比Coursera上面的课程要简单很多,它不会涉及到算法底层。但是实用性更高,它教你使用Scikit Learn。比起你在Coursera上面从头开始用Octave写一个算法来说,应用算法到实际世界中简单太多。

继续前行

一周的体验不仅仅是许多的乐趣,它可以帮我们意识到机器学习在社会上的用处。我学到关于它的东西越多,就看到它可以用于越多的领域中。

如果你对机器学习感兴趣,我强烈建议你花几天或晚上对它进行简单的了解。

如果你还没准备好应对繁重的素材资料,你可以选择一个至上而下的方法,尽快地在解决实际问题中学习。

祝你们好运!

. . .

谢谢阅读!我的名字是Per Borgen,我通常会写学习新东西的博客。

如果你有任何问题或者像要认识我,请联系我,要么通过推特,github抑或是电子邮件:perhborgen@gmail.com。

云实验环境随时练习

来源:https://medium.com/learning-new-stuff/machine-learning-in-a-week-a0da25d59850#.qw3zmizf9

关于转载如需转载,请在开篇显著位置注明作者和出处(转自:大数据文摘 | bigdatadigest),并在文章结尾放置大数据文摘醒目二维码。无原创标识文章请按照转载要求编辑,可直接转载,转载后请将转载链接发送给我们;有原创标识文章,请发送【文章名称-待授权公众号名称及ID】给我们申请白名单授权。未经许可的转载以及改编者,我们将依法追究其法律责任。联系邮箱:zz@bigdatadigest.cn。

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2017-03-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏镁客网

科学家要用3D打印技术复制大脑,今后人类都可以“永生”了

1885
来自专栏企鹅号快讯

PyTorch一周年战绩总结:是否比TensorFlow来势凶猛?

选自PyTorch 机器之心编译 今天 PyTorch 刚好一周年。自发布以来,由于调试、编译等多方面的优势,它成为 2017 年热度极高的框架之一。本文内容介...

2348
来自专栏新智元

【深度学习框架大PK】褚晓文教授:五大深度学习框架三类神经网络全面测评(23PPT)

【新智元导读】 香港浸会大学褚晓文教授团队在2016年推出深度学习工具评测的研究报告《基准评测 TensorFlow、Caffe、CNTK、MXNet、Torc...

4368
来自专栏机器之心

PyTorch一周年战绩总结:是否比TensorFlow来势凶猛?

35110
来自专栏量子位

TensorFlow产品经理:机器学习如何改变未来十年的软硬件?

王瀚宸 编译自 South Park Commons博客 量子位 报道 | 公众号 QbitAI 最近,Google Brain员工,TensorFlow产品经...

3115
来自专栏AI科技大本营的专栏

Google发布“多巴胺”开源强化学习框架,三大特性全满足

强化学习是一种非常重要 AI 技术,它能使用奖励(或惩罚)来驱动智能体(agents)朝着特定目标前进,比如它训练的 AI 系统 AlphaGo 击败了顶尖围棋...

902
来自专栏数据科学与人工智能

【大规模机器学习】大规模机器学习流程的构建与部署

大规模机器学习流程的构建与部署 现在有许多的机器学习算法实现是可以扩展到大数据集上的(其中包括矩阵分解、SVM、逻辑回归、LASSO 等等)。实际上,机器学习专...

30110
来自专栏新智元

【重磅】微软Facebook联手发布AI生态系统,CNTK+Caffe2+PyTorch挑战TensorFlow

【新智元导读】夜间重磅,微软Facebook联手发布AI生态系统,推出 Open Neural Network Exchange(ONNX,开放神经网络交换)格...

3144
来自专栏AI科技大本营的专栏

文因互联鲍捷:深度解析知识图谱发展关键阶段及技术脉络 | 公开课笔记

知识图谱是人工智能三大分支之一——符号主义——在新时期主要的落地技术方式。该技术虽然在 2012 年才得名,但它的历史渊源,却可以追溯到更早的语义网、描述逻辑、...

1455
来自专栏AI星球

让你"又爱又恨"的推荐系统--程序猿篇

推荐系统的应用场景,我相信在日常生活中大家基本都会接触到。例如,作为一个篮球爱好者,在淘宝上搜索的“kobe X 篮球鞋”,然后之后一段时间打开淘宝,首页界面可...

1.9K4

扫码关注云+社区

领取腾讯云代金券