机器学习 从入门到精通的学习方法

5个步骤 让你入门机器学习,直至精通机器学习

我将介绍5个“机器学习”的步骤,这五个步骤是非常规的。

传统的机器学习方法是自下而上的。从理论和数学开始,然后学习算法执行,再教你如何解决实际问题(实践)。

传统学习方法有存在“空隙”(即图中的“Gap”)

入门者如果以传统的“机器学习”步骤学习,会发现自己总是和真正的“机器学习”工作者存在差距,这也是以往学习方法中存在的缺点。

本文所介绍的步骤与传统学习方法不同,本文推荐初学者从结果着手。

它所满足的,正是企业所想要的: 如何交付结果

一系列预测或模型的结果,能够可靠地预测。

这是一种自上而下结果优先的方法。

从满足市场要求出发,最短的路径是真正成为这个行业的从业者。

我们可以通过以下5个步骤来概括这种方法:

  • 第一步:调整心态信念!)。
  • 步骤2:选择一个过程(如何获得结果)。
  • 第3步:选择一个工具(实施)。
  • 第四步:数据集实操投入实际工作)。
  • 第5步:建立一个收藏夹展示你的技能)。

就是这么简单

这是我所有电子书培训背后所展示出的哲学思考。

这也是我创建这个网站的原因。如果我知道更简便的方法,我可以直接在这与他人分享。

下面是一张漫画,简单地展示了这个过程,其中第1步(思维方式)和第2步(展示你的作品)为简洁起见省略。

学习机器学习的一种更好的方法是从端到端的工作机器学习问题开始。

让我们仔细看一下每一步。

第0步:标志

在开始之前,您必须知道机器学习的标志。

我经常只是假设这一点,但除非你知道一些真实的基础知识,否则你不能继续下去。

例如:

第一步:心态

机器学习不仅仅是为了成为该领域的专业人员、为了成才或是学位。

你必须相信

你可以学习这些知识,并将其用于解决实际问题。

  • 你不需要编写代码。
  • 你不需要知道或擅长数学。
  • 你不需要更高的学位。
  • 你不需要大数据。
  • 你不需要使用超级计算机。
  • 你不需要很多时间。

有些人总有理借口,始终不开始学习。

真的,只有一件事可以阻止你入门,并善于机器学习——就是你自己!

  • 也许你找不到动机。
  • 也许你认为你必须一切从头开始。
  • 也许你一直在挑选前沿的问题而不是初学者的问题。
  • 也许你没有一个系统的过程来实现结果。
  • 也许你没有使用好的工具和库。

清除阻止你入门的限制性信念。

这篇文章可能有帮助:

有很多速度颠簸,你可以打。

识别他们,解决他们,并继续前进。

为什么要学习机器

一旦你知道你可以做机器学习,理解为什么。

  • 也许你有兴趣学习更多关于机器学习算法的知识。
  • 也许你有兴趣创造预言。
  • 也许你有兴趣解决复杂的问题。
  • 也许你有兴趣创造更聪明的软件。
  • 也许你甚至有兴趣成为一名数据科学家。

仔细想想这个话题,试着找出你的“ 为什么 ”。

这篇文章可能会让你有更深入的认识:

一旦知道了“ 为什么 ”,就如同给自己打了一剂强心剂。

你对哪一组机器学习从业者有最大的亲和力?

  • 也许你是一个有普遍兴趣的商业人士。
  • 也许你是一个交付项目的经理。
  • 也许你是一个“机器学习”的学生。
  • 也许你是机器学习研究员。
  • 也许你是一个有问题的研究人员。
  • 也许你想要实现算法
  • 也许你需要一次性的预测。
  • 也许你需要一个可以部署的模型。
  • 也许你是一个数据科学家。
  • 也许你是一个数据分析师。

每个人群都有不同的兴趣,从不同的方向走向机器学习领域。

当然,并不是所有的书籍和材料都适合你,你需要找到你的领域,然后找到适合你的材料。

这篇文章可能有帮助:

第2步:选择一个过程

你想在问题后得到高于平均水平的结果吗?

你需要遵循一个系统化的过程。

  • 一个与你水平相对应的实例。
  • 你不需要依靠记忆或直觉。
  • 它引导你完成一个项目的端到端。
  • 你知道下一步该做什么。
  • 它可以根据您的特定问题类型和工具进行量身定制。

一个系统的过程就是过山车一方面是好的还是坏的结果,一方面是高于平均水平,另一方面是永远改善的结果。

我推荐的流程模板如下所示:

  • 第1步:定义问题(列出问题)。
  • 第2步:准备数据。
  • 第3步:检查算法。
  • 第4步:改善结果。
  • 第5步:得出结果。

下面这幅图,总结了上方的流程:

通过一个系统化、可重复的流程,可以得出一个一致的结果。

您可以在这篇文章中了解更多关于流程的信息

你并不一定要使用这个流程,但是你需要系统化的流程来处理预测建模问题。

第3步:选择一个工具

选择一个可以用来提供机器学习结果的最佳工具。

将您的过程映射到工具上,并学习如何最有效地使用它。

我推荐的工具有三种:

  • Weka机器学习工作台适合初学者)。Weka提供了一个GUI界面,不需要代码。我用它来快速地解决一次性建模问题。
  • Python生态系统中级)。您可以在开发中使用相同的代码和模型,并且足够可靠,可以在操作中运行。
  • R平台高级)。R是为统计计算而设计的,虽然语言比较深奥,而且一些软件包记录不完善,但它提供了大多数方法以及最先进的技术。

我也有专业领域的建议:

  • Keras深度学习。它使用Python,意味着您可以利用整个Python生态系统,节省大量时间。界面非常干净,同时也支持Theano和Keras,后端的功能非常强大。
  • XGBoost渐变提升。这是该技术最快的实现。它还支持R和Python,使您可以在项目中利用任一平台。

    学习如何使用选择的工具,研究它,精通它。

什么是编程语言?

编程语言并不重要。

即使你使用的工具并不重要。

通过问题学习的技能将轻松地从平台转移到平台。

不过,下面是机器学习中各种语言受欢迎程度的调查结果:

第四步:数据集实操

虽然有了系统化流程和相关工具,仍需要多加练习,方能生巧。

在标准机器学习数据集上的实践。

  • 使用真实的数据集,从实际问题领域收集(而不是人为虚构的)。
  • 使用适合的内存或Excel电子表格的小型数据集。
  • 使用易于理解的数据集,以便了解期望的结果类型。

练习不同类型的数据集,练习一些让你不喜欢的问题,因为你将不得不提高技术来获得解决方案。在数据问题中找出不同的特征,例如:

  • 不同类型的监督学习,如分类和回归。
  • 从数十,数百,数千和数百万个实例的不同大小的数据集。
  • 不到十个,几十个,几百个和几千个属性的不同数量的属性。
  • 来自实数,整数,分类,序数和混合的不同属性类型。
  • 不同的领域,迫使你迅速理解和了解一个你以前没有解决过的新问题。

使用UCI机器学习库

这些是最常用和最好理解的数据集,也是最好的开始。

在这篇文章中了解更多:

使用机器学习比赛,如Kaggle

这些数据集通常较大,需要更多的准备才能建模。

有关您可以练习的最受欢迎的数据集列表,请参阅以下文章:

对你自己的设计问题的实践

收集有关您的重要机器学习问题的数据。

你会发现你所设计的问题和解决方案更有价值。

欲了解更多信息,请查看帖子:

第五步:建立一个收藏夹

把自己完成的项目内容,放入一个收藏夹,把它们好好利用起来(有点像高中的错题集)。

在您处理数据集并获得更好的效果时,请汇总您的发现、学习经验到自己的收藏夹。

  • 可以上传你的代码,并在自述文件中总结。
  • 可以你在博客文章中写下你的结果。
  • 可以做一个幻灯片。
  • 可以在YouTube上创建一个小视频。

它们每一个都代表了您不断增长的经验之一。

就像一个画家,你可以建立一个完整的收藏夹,来展示你在机器学习的成果递送技术。

您可以在该文章中了解更多关于这种方法的信息:

当你觉得自己的收藏夹已经硕果累累的时候,你甚至可以选择利用它来承担更多的工作责任,或者成为一个新的机器学习的重点角色。

欲了解更多信息,请看这篇文章:

技巧和窍门

以下是您在使用此过程时可能会考虑的一些实用技巧和窍门。

  • 从一个简单的过程开始(像上面)和一个简单的工具(像Weka),然后提升难度,在这个过程中,你的自信心会得到提高。
  • 从最简单和最常用的数据集(鸢尾花皮马糖尿病)开始。
  • 每次应用一个流程时,都要寻找改进方法和使用方法。
  • 如果你发现新的方法,找出把它们整合到你的收藏中。
  • 学习算法,再多不多,以帮助您获得更好的结果与您的过程。
  • 从专家身上学习,看看哪些东西可以应用到自己的项目上。
  • 像研究预测建模问题一样研究你的工具,并充分利用它。
  • 解决越来越难的问题,因为在解决问题的过程中,你会从中学到很多东西。
  • 在论坛和问答网站上参与社区,提出问题和回答问题。

概要

在这篇文章中,您看到了简单的5个步骤,您可以使用它学习“机器学习”并取得学习进展。

虽然看上去很简单,但这种方法却需要付出艰辛的努力,最终将受益无穷。

我的许多学生都是通过这个步骤来学习的,而且还是机器学习的工程师和数据科学家。

如果您对这个过程和相关想法有更深入的了解,请参阅以下文章:

本文的版权归 青蛙跳 所有,如需转载请联系作者。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器人网

一图了解人工智能之机器学习学习路径

1. 引言 也许你和这个叫『机器学习』的家伙一点也不熟,但是你举起iphone手机拍照的时候,早已习惯它帮你框出人脸;也自然而然点开今日头条推给你的新闻;也习惯...

42113
来自专栏AI研习社

分享一波关于做 Kaggle 比赛,Jdata,天池的经验,看完我这篇就够了。

Kaggle 的数据挖掘比赛近年来很火,以至于中国兴起了很多很多类似的比赛,做了两个这种类型的比赛了,Jdata 用户商品购买预测和用户位置精准预测,积累了相当...

3444
来自专栏机器学习人工学weekly

机器学习人工学weekly-2018/1/21

1. Google Brain发布2017年总结贴,感觉今年vision方面已经没什么进展了,AutoML还是优先级最高的 链接:https://rese...

3587
来自专栏人工智能头条

《纽约时报》如何打造新一代推荐系统

1142
来自专栏企鹅号快讯

分享一波关于做 Kaggle 比赛,Jdata,天池的经验,看完我这篇就够了

本文作者Jasperyang,毕业于BUPT。本文原载于知乎专栏,AI 研习社授权转载。 Kaggle 的数据挖掘比赛近年来很火,以至于中国兴起了很多很多类似的...

4308
来自专栏PPV课数据科学社区

机器学习入门阶段易犯的 5 个错误

怎样进入机器学习领域没有定式。我们的学习方式都有些许不同,学习的目标也因人而异。 但一个共同的目标就是要能尽快上手。 如果这也是你的目标,那么这篇文章为你列举了...

2915
来自专栏华章科技

看《纽约时报》如何用数据算法打造新一代推荐系统!

通过精炼读者获取这些内容的途径,即在移动应用和网站上基于读者喜好调整文章布局,能够帮助读者找到与他们相关的内容,比如在正确的时间推送读者感兴趣的内容、重大事件的...

742
来自专栏量子位

纽约大学《机器学习入门》课程讲义(附PDF下载)

允中 编译整理 量子位 出品 | 公众号 QbitAI 今年春天,Kyunghyun Cho开始在纽约大学教授本科生《机器学习入门》课程。今天,他把这门课程的讲...

3446
来自专栏新智元

【盘点】掌握机器学习的5条必由之路(附学习资料推荐)

【新智元导读】作者在本文提出一种5步入门并应用机器学习的方法。它不是传统的方法。传统的机器学习方法提倡从下往上学,先从理论和数学开始,然后是算法实现,最后让你去...

40910
来自专栏应兆康的专栏

送给刚踏入数模路上的萌新们

送给刚踏入数模路上的萌新们 这里不会引用任何官方术语,均为我个人的理解,所以小伙伴们放心阅读 前面如果觉得很枯燥,可以调到后面,后面会提供干货 顺便打个广告,嘿...

37210

扫码关注云+社区