机器学习 从入门到精通的学习方法

5个步骤 让你入门机器学习,直至精通机器学习

我将介绍5个“机器学习”的步骤,这五个步骤是非常规的。

传统的机器学习方法是自下而上的。从理论和数学开始,然后学习算法执行,再教你如何解决实际问题(实践)。

传统学习方法有存在“空隙”(即图中的“Gap”)

入门者如果以传统的“机器学习”步骤学习,会发现自己总是和真正的“机器学习”工作者存在差距,这也是以往学习方法中存在的缺点。

本文所介绍的步骤与传统学习方法不同,本文推荐初学者从结果着手。

它所满足的,正是企业所想要的: 如何交付结果

一系列预测或模型的结果,能够可靠地预测。

这是一种自上而下结果优先的方法。

从满足市场要求出发,最短的路径是真正成为这个行业的从业者。

我们可以通过以下5个步骤来概括这种方法:

  • 第一步:调整心态信念!)。
  • 步骤2:选择一个过程(如何获得结果)。
  • 第3步:选择一个工具(实施)。
  • 第四步:数据集实操投入实际工作)。
  • 第5步:建立一个收藏夹展示你的技能)。

就是这么简单

这是我所有电子书培训背后所展示出的哲学思考。

这也是我创建这个网站的原因。如果我知道更简便的方法,我可以直接在这与他人分享。

下面是一张漫画,简单地展示了这个过程,其中第1步(思维方式)和第2步(展示你的作品)为简洁起见省略。

学习机器学习的一种更好的方法是从端到端的工作机器学习问题开始。

让我们仔细看一下每一步。

第0步:标志

在开始之前,您必须知道机器学习的标志。

我经常只是假设这一点,但除非你知道一些真实的基础知识,否则你不能继续下去。

例如:

第一步:心态

机器学习不仅仅是为了成为该领域的专业人员、为了成才或是学位。

你必须相信

你可以学习这些知识,并将其用于解决实际问题。

  • 你不需要编写代码。
  • 你不需要知道或擅长数学。
  • 你不需要更高的学位。
  • 你不需要大数据。
  • 你不需要使用超级计算机。
  • 你不需要很多时间。

有些人总有理借口,始终不开始学习。

真的,只有一件事可以阻止你入门,并善于机器学习——就是你自己!

  • 也许你找不到动机。
  • 也许你认为你必须一切从头开始。
  • 也许你一直在挑选前沿的问题而不是初学者的问题。
  • 也许你没有一个系统的过程来实现结果。
  • 也许你没有使用好的工具和库。

清除阻止你入门的限制性信念。

这篇文章可能有帮助:

有很多速度颠簸,你可以打。

识别他们,解决他们,并继续前进。

为什么要学习机器

一旦你知道你可以做机器学习,理解为什么。

  • 也许你有兴趣学习更多关于机器学习算法的知识。
  • 也许你有兴趣创造预言。
  • 也许你有兴趣解决复杂的问题。
  • 也许你有兴趣创造更聪明的软件。
  • 也许你甚至有兴趣成为一名数据科学家。

仔细想想这个话题,试着找出你的“ 为什么 ”。

这篇文章可能会让你有更深入的认识:

一旦知道了“ 为什么 ”,就如同给自己打了一剂强心剂。

你对哪一组机器学习从业者有最大的亲和力?

  • 也许你是一个有普遍兴趣的商业人士。
  • 也许你是一个交付项目的经理。
  • 也许你是一个“机器学习”的学生。
  • 也许你是机器学习研究员。
  • 也许你是一个有问题的研究人员。
  • 也许你想要实现算法
  • 也许你需要一次性的预测。
  • 也许你需要一个可以部署的模型。
  • 也许你是一个数据科学家。
  • 也许你是一个数据分析师。

每个人群都有不同的兴趣,从不同的方向走向机器学习领域。

当然,并不是所有的书籍和材料都适合你,你需要找到你的领域,然后找到适合你的材料。

这篇文章可能有帮助:

第2步:选择一个过程

你想在问题后得到高于平均水平的结果吗?

你需要遵循一个系统化的过程。

  • 一个与你水平相对应的实例。
  • 你不需要依靠记忆或直觉。
  • 它引导你完成一个项目的端到端。
  • 你知道下一步该做什么。
  • 它可以根据您的特定问题类型和工具进行量身定制。

一个系统的过程就是过山车一方面是好的还是坏的结果,一方面是高于平均水平,另一方面是永远改善的结果。

我推荐的流程模板如下所示:

  • 第1步:定义问题(列出问题)。
  • 第2步:准备数据。
  • 第3步:检查算法。
  • 第4步:改善结果。
  • 第5步:得出结果。

下面这幅图,总结了上方的流程:

通过一个系统化、可重复的流程,可以得出一个一致的结果。

您可以在这篇文章中了解更多关于流程的信息

你并不一定要使用这个流程,但是你需要系统化的流程来处理预测建模问题。

第3步:选择一个工具

选择一个可以用来提供机器学习结果的最佳工具。

将您的过程映射到工具上,并学习如何最有效地使用它。

我推荐的工具有三种:

  • Weka机器学习工作台适合初学者)。Weka提供了一个GUI界面,不需要代码。我用它来快速地解决一次性建模问题。
  • Python生态系统中级)。您可以在开发中使用相同的代码和模型,并且足够可靠,可以在操作中运行。
  • R平台高级)。R是为统计计算而设计的,虽然语言比较深奥,而且一些软件包记录不完善,但它提供了大多数方法以及最先进的技术。

我也有专业领域的建议:

  • Keras深度学习。它使用Python,意味着您可以利用整个Python生态系统,节省大量时间。界面非常干净,同时也支持Theano和Keras,后端的功能非常强大。
  • XGBoost渐变提升。这是该技术最快的实现。它还支持R和Python,使您可以在项目中利用任一平台。

    学习如何使用选择的工具,研究它,精通它。

什么是编程语言?

编程语言并不重要。

即使你使用的工具并不重要。

通过问题学习的技能将轻松地从平台转移到平台。

不过,下面是机器学习中各种语言受欢迎程度的调查结果:

第四步:数据集实操

虽然有了系统化流程和相关工具,仍需要多加练习,方能生巧。

在标准机器学习数据集上的实践。

  • 使用真实的数据集,从实际问题领域收集(而不是人为虚构的)。
  • 使用适合的内存或Excel电子表格的小型数据集。
  • 使用易于理解的数据集,以便了解期望的结果类型。

练习不同类型的数据集,练习一些让你不喜欢的问题,因为你将不得不提高技术来获得解决方案。在数据问题中找出不同的特征,例如:

  • 不同类型的监督学习,如分类和回归。
  • 从数十,数百,数千和数百万个实例的不同大小的数据集。
  • 不到十个,几十个,几百个和几千个属性的不同数量的属性。
  • 来自实数,整数,分类,序数和混合的不同属性类型。
  • 不同的领域,迫使你迅速理解和了解一个你以前没有解决过的新问题。

使用UCI机器学习库

这些是最常用和最好理解的数据集,也是最好的开始。

在这篇文章中了解更多:

使用机器学习比赛,如Kaggle

这些数据集通常较大,需要更多的准备才能建模。

有关您可以练习的最受欢迎的数据集列表,请参阅以下文章:

对你自己的设计问题的实践

收集有关您的重要机器学习问题的数据。

你会发现你所设计的问题和解决方案更有价值。

欲了解更多信息,请查看帖子:

第五步:建立一个收藏夹

把自己完成的项目内容,放入一个收藏夹,把它们好好利用起来(有点像高中的错题集)。

在您处理数据集并获得更好的效果时,请汇总您的发现、学习经验到自己的收藏夹。

  • 可以上传你的代码,并在自述文件中总结。
  • 可以你在博客文章中写下你的结果。
  • 可以做一个幻灯片。
  • 可以在YouTube上创建一个小视频。

它们每一个都代表了您不断增长的经验之一。

就像一个画家,你可以建立一个完整的收藏夹,来展示你在机器学习的成果递送技术。

您可以在该文章中了解更多关于这种方法的信息:

当你觉得自己的收藏夹已经硕果累累的时候,你甚至可以选择利用它来承担更多的工作责任,或者成为一个新的机器学习的重点角色。

欲了解更多信息,请看这篇文章:

技巧和窍门

以下是您在使用此过程时可能会考虑的一些实用技巧和窍门。

  • 从一个简单的过程开始(像上面)和一个简单的工具(像Weka),然后提升难度,在这个过程中,你的自信心会得到提高。
  • 从最简单和最常用的数据集(鸢尾花皮马糖尿病)开始。
  • 每次应用一个流程时,都要寻找改进方法和使用方法。
  • 如果你发现新的方法,找出把它们整合到你的收藏中。
  • 学习算法,再多不多,以帮助您获得更好的结果与您的过程。
  • 从专家身上学习,看看哪些东西可以应用到自己的项目上。
  • 像研究预测建模问题一样研究你的工具,并充分利用它。
  • 解决越来越难的问题,因为在解决问题的过程中,你会从中学到很多东西。
  • 在论坛和问答网站上参与社区,提出问题和回答问题。

概要

在这篇文章中,您看到了简单的5个步骤,您可以使用它学习“机器学习”并取得学习进展。

虽然看上去很简单,但这种方法却需要付出艰辛的努力,最终将受益无穷。

我的许多学生都是通过这个步骤来学习的,而且还是机器学习的工程师和数据科学家。

如果您对这个过程和相关想法有更深入的了解,请参阅以下文章:

本文的版权归 青蛙跳 所有,如需转载请联系作者。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

人工神经网络完爆人类的6大领域:看车都能预测选举

编辑: frances 【新智元导读】来自Venturebeat的盘点,人工智能都在哪些领域超越了人类?欢迎补充。 目前,不同于一次处理多个事物的人脑,机...

42490
来自专栏机器之心

专访 | 追一科技首席科学家杨振宇:对话机器人里不能「耳闻目览」却又「无所不在」的 AI

机器之心原创 作者:邱陆陆 对话机器人是「怎样炼成的」。 相比于语音和图像,自然语言是一个有「更多需求」和「更少标准答案」的领域。扎根自然语言的公司通常也不是从...

39890
来自专栏AI研习社

今日头条成功的核心技术秘诀是什么?

资讯产品近几年持续火爆,赚足了人们的眼球。以今日头条披露的数据为例:日活跃用户超过一亿,单用户日均使用时长超过 76分钟,资讯类产品的火爆程度可见一斑。资讯类产...

69040
来自专栏AI科技评论

业界丨专访 Jeff Dean,谷歌战神谈增强学习和无监督学习

编者按:近日,谷歌大脑负责人 Jeff Dean 在接受 Fortune 杂志采访时讲述了他对无监督学习和增强学习在人工智能领域应用的看法,雷锋网进行编译。 下...

35340
来自专栏量子位

Facebook和微软发布机器学习工具ONNX,PyTorch训练的模型轻松转到Caffe2

陈桦 编译整理 量子位 出品 | 公众号 QbitAI ? Facebook和微软周四在各自的博客中发布了ONNX,即“开放神经网络转换”工具。 简单地说,这...

40690
来自专栏数据科学与人工智能

【数据分析】Intel研究院院长吴甘沙:大数据分析师的卓越之道

吴甘沙 Intel中国研究院第一位“首席工程师” Intel中国研究院院长 ? 亲爱的各位同仁,各位同学,早上好。讲到大数据,就要问数据分析师应该做什么?所以我...

29750
来自专栏华章科技

极度烧脑+惊人发现:4个颠覆你世界观的量子理论实验

导读:最近,“量子”这个词成了网红。科幻作家们用量子理论虚构一个神奇的世界;量子计算是最火热的前沿技术之一;量子纠缠也成了伪科学用来忽悠人的幌子……

11810
来自专栏新智元

高明!OpenAI提出HER算法,AI系统学会从错误中学习

---- 新智元报道 来源:OpenAI 编译:小潘 【新智元导读】OpenAI在利用增强学习训练人工智能系统任务上不断地取得进步。他们发布的新平台显...

384120
来自专栏机器之心

业界 | 谷歌、百度等联合发布机器学习新基准MLPerf,旨在促进AI发展和公众参与

22340
来自专栏云加头条

【 SPA 大赛】腾讯社交广告转化率预估初探

相比传统广告,互联网广告最大的优势之一:效果可测量,即用户看广告以及看过广告之后的行为可以被记录下来,如果再按照一定的规则,对这些数据进行归因,这就意味着,广告...

72100

扫码关注云+社区

领取腾讯云代金券