“机器学习”自学手册

在自学“机器学习”方面,你能做的事其实很多。你可以参考一些书籍或者相关的课程、参加一些竞赛,或者使用一些你能用到的相关的工具等等。在本文中,我将结构性的阐述一下自学的方法,并且我会给出一些在从新手到老手的晋升途径中常常会遇到的问题的解决方案。

“机器学习”掌握水平上的四层等级

考虑在机器学习上能力的不同,将能力分为了四层。这个模型可以帮助我们抓住可用的资源和活动,并且告诉我们何时去使用它们。

  1. 纯新手
  2. 新手
  3. 熟练从业者
  4. 资深从业者

我想在这里把纯新手和新手分开考虑了,因为我在这想表明对于一个纯新手(仅仅是对这个领域感兴趣的程序员)来说,也有一条路供他们选择。

我们将陆续的讲述这四个层面中的每一个层,然后讲述一下在每一层下能够帮助学习者更加深入并且提高他们知识水平的资源和活动。

这种划分仅仅是我的一个建议,也许在你所在层级之上或者之下的层级中的资源和活动对你来说也是非常有用的。

纯新手

纯新手是指那些只是对机器学习感兴趣的程序员,他们可能只是读了几本书,或者只是浏览了一下维基百科页面,亦或是仅仅听了几门课程,但他们并没有真正的明白机器学习是什么。他们常常会感到受挫,因为他们所得到的一些建议往往是针对熟练者和资深者的。

纯新手需要循序渐进的介绍,远离代码、教科书和课程。他们首先需要知道的是“为什么”、“是什么”、“怎么弄”,这样才能为弄懂起步者级材料奠定基础。

下面是为纯新手准备的一些资源和操作:

新手

一个新手是指那些已经与机器学习领域过过招的一些人。他们可能已经读了一本书或听了一门课程。他们对这方面有兴趣并且想知道更多。他们开始深入学习并想着如何完成任务。

新手确实需要做些事情。他们需要付诸实践,才能将拥有的资源应用到他们已知的知识结构中,例如他们已知的编程语言或者他们擅长解决的问题。

下面是对新手准备的一些资源:

  • 完成课程:参加并完成类似斯坦福机器学习这样的课程。记下笔记,尽可能完成作业,并勇于提问。
  • 阅读一些书籍:不是教科书,而是像上面列出的那些针对初学程序员比较友好的书籍。
  • 学习一项工具:学习使用如Scikit-LearnWEKAR或类似的工具或库。具体来说就是学习如何使用你已经在书本或课程中学到的算法。付之现实并且习惯在一边学习的同时不断地进行尝试。
  • 写一些代码:编写代码实现一个像感知器、k最近相邻法或线性回归法这样简单的算法。编写一些程序来揭开方法的神秘面纱,并弄懂实现他们所需要做的每一小步。
  • 完成指引:遵循并完成教程。建立一个您已经完成的小型项目的目录,您可以回顾,阅读和思考数据集,脚本甚至源代码。

熟练从业者

熟练从业者指的是一个新手如果已经读了一些相关的书,并完成了一些课程。他们知道如何去使用所需的工具,也写了不少能够实现简单的算法或用于完成教程的代码。一个熟练的从业者开始自己钻研,开始研究自己的项目,并且参加到更大的论坛社区进行交流和学习。

熟练从业者开始学习如何正确的使用和执行算法,使得他们的算法更加的稳定和合适。他们还花费大量的时间来学习技能,使得他们他们的数据是最新的,并且是整洁有概括性的。他们同时还思考在他们的知识水平范围内有哪些问题是他们所可以回答的。

这里有一些适合熟练从业者的资源和活动:

  • 小型项目:设计小型的编程项目并且使用机器学习来解决实验中的问题。这就像设计和执行自己的教程一样,能够让你发现你所感兴趣的一些技术。您可以自己实现一个算法或者通过连接一个库来获取算法。
  • 数据分析:习惯于发现和总结数据。自动化报告知道你在什么时候该用什么工具,并查找、清理你所需要的数据。你可以练习一些与它有关的技巧方法并学到一些有趣的内容。
  • 阅读教科书:阅读并消化与机器学习的教科书。这可能需要足够的知识来掌握那些与问题分类和算法有关的技术和数学内容。
  • 编写插件:为开源机器学习平台和库编写一些插件和包。这是用于学习如何编写稳定的和有效率的算法。在项目中使用自己的插件,在社区中研究它人对自己代码的评论,并尽可能将代码运用到平台中。同时及时的获得反馈。
  • 比赛:参加机器学习比赛,比如与机器学习会议相关的比赛,或者在像Kaggle这样的平台上提供的比赛。参与讨论,提出问题,了解其他从业人员如何解决问题。将那些您可以实现的项目,方法和代码添加到你自己的存储库中。

资深从业者

一个资深从业者已经写了很多代码,要么是整合了机器学习的算法,要么是自己实现的算法。他们可能参加过比赛或者写过一些插件。他们已经阅读大量的文献,完成了本行的课程,对这个领域有着广泛的了解,并且对他们所喜欢的几个关键技术上,它们也有着有深入的了解。

资深从业者能够建立,部署和维护使用机器学习的生产系统。他们随时掌握与他们领域相关的各方面的新动态,热切地寻找和学习其他一线工作者的方法和技巧,并比较他们之间的差别。

对资深从业者的推荐的一些资源有:

  • 定制算法:修改算法以满足他们的需求,包括对于一些在一些会议或者期刊杂志中出现的与他们学研究相关的类似的问题进行一些个性化的定时是的修改后的代码更加的符合它们的需求。
  • 新的算法:设计全新方法来迎接他们遇到的挑战。与推陈出新相比,更佳的做法是为现有的结果取得更好的成就。
  • 案例研究:阅读甚至是重新构建在机器学习大赛中其他从业人员的案例研究心得。这些“制作心得”论文和帖子通常都包含了许多需要准备的数据、特别的步骤和技术使用等细微的专业技巧。
  • 方法:流程的系统化,无论它们是规范化的还是自己制作的。他们有办法解决问题,并取得一些成果,他们积极寻找方法和不断的实践去进一步的完善和改进这一过程。
  • 研究:参加会议、阅读研究相关的论文和专著,与该领域的专家进行一些交流。这些资深从业者可能会记录一些他们平时的工作成果,并且提交出版,亦或者放到它们的博客上,然后继续投身机器学习事业中。

掌握一门知识是需要连续不断的努力,学习是永无止境的。学习旅途中的任何一点停顿和绕道,都能一点一点的让你成为一个专家。实际上,在我看来,绕弯路是不可避免的。

本文的版权归 KX_WEN 所有,如需转载请联系作者。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏ATYUN订阅号

【科技】嵌入式深度学习:从云端到设备

苹果的人脸识别标志着嵌入式人工智能第二阶段的开始,在这一阶段,更多的智能发生在独立于云的设备上。但它们并不是唯一的选择。 “健谈”的智能助手已经成为消费设备的标...

53450
来自专栏CDA数据分析师

自学机器学习向导

这里,你在学习机器学习的过程中,可以做很多的事情。这里有很多来自书籍和课程的资源给你提供参考,甚至你可以参加比赛和属性使用工具。在这篇文章里,我想对这些活动提供...

21570
来自专栏人工智能头条

谷歌工智能开源项目Tensorflow预示着硬件领域的重大变革

16930
来自专栏CSDN技术头条

数据可视化方法、工具、核心理念及需要警惕的深坑

大数据是当下最火爆的话题之一。随之而来的,是数据可视化技术的持续发展,它用来展现和阐释大规模的数据。但是数据可视化技术并非千篇一律。 数据可视化是展现数据的最强...

225100
来自专栏EAWorld

【超详解PPT】元数据驱动的微服务架构(上)

? 各位好!很高兴能与大家分享“元数据驱动的微服务架构”。 ? 本次分享有两个部分:1、微服务架构需要元数据,2、介绍微服务与元数据的关系。下期会分享:微服务...

64070
来自专栏人工智能头条

数据可视化方法、工具、核心理念及需要警惕的深坑

19050
来自专栏大数据文摘

深度学习趋势:云计算or高性能计算

22830
来自专栏专知

【前沿】人工智能系统的四大趋势与九大挑战,美国Berkeley14位重量级学者(包含机器学习泰斗Jordan)最新观点

【导读】最近,加州大学伯克利分校大学的大牛们针对目前AI的火爆形势,又总结了一篇《A Berkeley View of Systems Challenges f...

1.2K60
来自专栏数据之美

用户画像从入门到挖坑

背景 用户流量从搜索引擎为入口的增量时代到移动互联网普及人口红利不再的存量时代,这个变化对每个公司的获客成本,运营思路都产生了很大的影响,在流量日益枯竭,获客成...

1.8K90
来自专栏超智能体

“先把书读厚,再把书读薄”到底什么意思

77140

扫码关注云+社区

领取腾讯云代金券