机器学习很难上手和提升?你只差一条学习路径!

拥抱变化

从网易云音乐的歌单、亚马逊的商品到抖音的短视频,机器学习主导的推荐系统改变了用户浏览习惯;iphone x 在刘海中祭出3D结构光,人脸识别AI便在移动终端迅速蔓延……

自从Alpha围棋占据人类棋类智力顶峰以来,机器大有在各个领域大放异彩的趋势,Google Assistant 在某些方面看起来毫不逊色于人类,那个几年前看起来还模糊不清的未来已经来临,这是关于人工智能和机器学习的时代。

机器学习火了人工智能产品,也带火了创造它们的攻城狮们。机器学习方向的人才异常抢手也是业内常态,“批发价20K起” 毫不夸张。

很多人跃跃欲试,但入行并不能仅靠浮躁的情绪和一腔热血,对机器学习的体系及应用有整体的把握,在这个基础上深入各个技能分支,有计划地系统学习,效率要高得多。

对于机器学习或者很多AI方向的职位而言,核心技能无非是“数据特征+算法模型”,当然我们还可以细分来看,算法与特征,需要掌握的技能有哪些。

数据特征:

  • 数据清洗:消除数据噪音,归一化、正则化、采样
  • 数据标注:做出统一化、高质量的数据,提升机器学习效果
  • 特征工程:特征选取方法、降维方法、多个特征融合

算法模型技能:

  • 主流监督/无监督学习算法:原理以及适用性,生成和调用
  • 模型优化:调参、加约束条件、模型替换、多模型融合
  • 运行优化:处理数据集的效率,掌握更高效的技巧、框架和工具(如spark)

当然,基础技能是必备的

  • 编程/工具:Python基础及第三方库/框架,后续可以上spark/hadoop
  • 数学基础:微积分、概率统计、线性代数

所以神秘的AI攻城狮们的工作看起来也并不可怕,比如使用成熟的框架和工具,运行已有算法,训练业务数据,获得工作模型并不断调优,应用到企业产品。

高效学习

针对机器学习的职业技能和知识框架,DC学院推出了一门非常完善的《机器学习》体系课程,几乎可以学到机器学习所有的主干知识,并深入到细枝末节。即便你没什么基础,也能很快上手,并独立完成实际项目。

这门课之所以如此体系且全面,一方面是因为机器学习本身的体系十分庞大,当然只是教sklearn调个模型显然不是在认真讲机器学习。

另一方面,比如学习路径的设计、知识点难易度的把握,案例的选取,内容的深入程度等细节都做了大量延伸和重点打磨。

比自己去完成一个机器学习项目更难的是,如何让课程适合更多的人(特别是没有什么基础的同学),既要易于理解,也要兼顾深度。

所以课程框架清晰,以结果为导向,目的就是去掌握那部分核心技能,并在实际的案例中输出结果。比如系统的微积分和概率论不必回炉重学,Python编程更是如此,掌握最需要的那部分,效率更高。

相信对于每一个想要学习机器学习的人来说,大纲里的内容多少都有了解,不多赘述,今天我们以问答的形式来做课程介绍。

- ❶ -

Q:这门课大概的学习思路是怎样的?

要回答你这个问题,我们得先来了解一个机器学习项目的实现流程是怎样的。

点击可查看高清大图

当我们拿到一堆数据,并且明确需要解决的问题,或者需要预测的数据的时候,我们就应该想到要按怎样的思路去解决问题了。

1. 进行数据清洗,初步的特征选择

2. 选择合适的模型进行训练

3. 做更深入的特征工程

4. 调节模型的各种参数

5. 对模型进行优化/融合等处理

最终我们要得到比较理想的结果,让这个模型在不同的数据中依然效果不俗。

其实我们学习整体的框架就基于这个流程,其中涉及到大量算法原理及使用、模型选择思路、特征工程、集成学习等等内容,这是一个完整的机器学习实践流程。

除此之外,课程还会涉及时间序列、强化学习、深度学习的知识,让你可以处理更多样化的数据以及应用场景。

- ❷ -

Q:学习这门课需要先补充哪些基础?

这个问题是被问及最多的,机器学习这门技术有太多的诱惑,且不说改变世界、追求技术这样的空洞言论,只是动辄20K的月薪,就足够有说服力。

基础是必须的,但只要你有基本数学基础(学过大学数学:微积分\线性代数\概率统计),那就没有问题,数学功底越好越有优势。

我们也在课程中补充了必备的数学基础,微积分、现代、概率统计都有涉及,一般不被重视的信息论和优化理论,都有专门的课程讲解。

数学基础固然重要,但是并不建议花费太多时间去刷数学书,这是南辕北辙,最好的办法还是直接学习机器学习算法与应用,到了看不懂的地方再去补充相应的数学知识,这样效率会高很多。

编程基础呢?你需要掌握Python的基础知识,比如基本的数据类型,编程规范,语句以及函数,以及机器学习中必备的第三方库等等。

这些东西你可以在短时间内看文档/课程掌握。而课程中也会教你用Numpy/Pandas/Sklearn等工具进行数据处理与模型训练,不必担心。

- ❸ -

Q:课程会涉及哪些算法的讲解?

问这个问题就知道你一定是有点基础了。课程主要从监督学习和无监督学习两个方向进行划分,时下主流的算法模型均会涉及。

监督学习部分:线性回归、逻辑回归、KNN、SVM、朴素贝叶斯。

无监督学习部分:k均值、层次聚类、密度聚类、EM。

当然我们还会回归统计学,了解统计学习的本质,比如非常重要的极大似然估计、偏倚方差分解、贝叶斯估计、参数化方法等等。

总之,算法这个部分是重头戏,从统计学习到主流的机器学习方法,都有涉及。每个算法后面都会有案例配合具体的数据集进行实践,会用才是硬道理。

当然除了基本的理解和应用,我们会尽量把常用的算法,深入原理讲解推导的过程。这样,不但可以增加你对于实现过程的理解,也便于后续进行模型的优化。

- ❹ -

Q:是否有足够的案例和项目?

当然有,还是手把手的那种!

除了每个算法后附带的针对性实践案例,每章都设置了体系完整的实战项目,更加偏向真实应用。

比如我们会尽量利用真实的数据集,更加系统化的实践,让你学习具体的知识点的同时,熟悉机器学习的基本套路,并能够举一反三,把这些套路应用到更多的问题中去。

具体的案例老师都会详细讲解,细化到每一个操作,案例的思路、实现过程以及全部的代码我们都会分享出来,通过jupyter notebook的形式,下载后你可以直接在你本地的环境中运行。

课程中将包含但不限于以下案例/项目:

- ❺ -

Q:用一章来讲特征工程,真有那么重要?

在机器学习/数据挖掘领域有一句经典的话:数据与特征工程决定了机器学习的上限,而算法与模型不过是逼近这个上限而已。

算法与模型不过是实现机器学习的第一步,相当于我们掌握了基本实现方式,但是真正要获得好的效果,还要进行很多的内部优化,特征工程则是重中之重。

事实上所有机器学习算法的成功,都在于你怎么样去展示这些数据,由此可见特征工程在实际的机器学习中的重要性。

事实上在很多数据挖掘竞赛中,大家使用的模型大同小异(比如大部分人会直接祭出XGBoost,然后数据全部往上面怼就完事),但高下之分很大程度上源于特征工程。

除了基本的数据清洗(缺失值/异常值处理,数据归一化、多项式特征生成)以及特征选择方法(Filter、Wrapper、Embedded),还会涉及降维(PCA&LDA)的方法。从单个特征的处理到多个特征的融合,你都可以轻松解决。

算法的使用往往是招式的修炼,而特征工程才是真正的内功。

- ❻ -

Q:深度学习和强化学习会讲到什么程度?

深度学习作为机器学习的一个重要分支,也是处理很多问题的好方式,课程中会介绍几种常用的神经网络(CNN、RNN),并通过 Keras 框架来实现深度学习。

具体的呢,主要通过猫狗分类的案例,来梳理一个完整的深度学习流程,并借此掌握 Keras 框架。

当然深度学习不止如此,通过课程你可以掌握深度学习实现的基本套路,但这个东西是需要你花更多的精力去做更深入的学习,才能达到更好地效果。

而强化学习呢,主要是让你去了解机器学习自我提升的思想,强大如 AlphaGo ,是通过怎样方式进行自我学习的。而这,也是真正迈向人工智能的基石。

- ❼ -

Q:学完我能达到什么样的水平?

就喜欢你这样有觉悟的,但说实话,没有人能够保证。

如果你稍微认点真,一套课程下来,独立完成基本的机器学习项目没有问题的。绝大部分的数据挖掘竞赛,你都能够通过学到的知识,跑个模型,取得还不错的成绩。不过要进入TOP排名,老铁还需努力。

更重要的是,课程中提供的特征工程、模型筛选、集成学习、调参、优化技巧,才是你形成核心竞争力的关键。

千万不要认为课程中关于算法的推导没什么卵用,你要是觉得调个包、找两个特征就能忽悠面试官,那对方会分分钟教你做人。

所以课程教你的不仅是套路,还有更多的内功,以及学习、泛化的方法。天高任鸟飞,课程够深入,只要你愿意学,就有无限可能。

Q:另外,我还想问……?

算了,别问了,相关信息都给你说了吧:

  • 录播课程,随时上课,你有绝对的学习自主权。
  • 总共60个课时,每课时20-60分钟不等,讲懂为止。
  • 主讲老师是华科教授,技术好,各种深入浅出,还送两助教。
  • 学习群老师即时答疑,专治各种不会。
  • 课后资料里,案例代码,实现思路、重点笔记、拓展阅读全部都熬好了,直接服用即可。
  • 匹配针对性数据竞赛,实时训练,还可以查看真实排名。
  • Python 3.6,不解释,只用最新的。
  • 爱过~约~就是现在~

原文发布于微信公众号 - 机器学习算法与Python学习(guodongwei1991)

原文发表时间:2018-07-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

腾讯 AI Lab 主任张潼博士:机器学习里的优化问题

AI 科技评论按:日前,在由上海财经大学交叉科学研究院(RIIS)主办,杉数科技有限公司协办的「现代运筹学发展讨论会」上,腾讯 AI Lab(腾讯人工智能实验室...

39290
来自专栏null的专栏

[置顶] 《Python机器学习算法》的写作历程

前言 首先,感谢各位支持我博客的同学,你们的支持是我一直努力的动力,正是因为你们的支持,才有了《Python机器学习算法》一书的面世: ? 目前,该书已经可以在...

43550
来自专栏机器学习算法与Python学习

一篇文章讲清楚人工智能、机器学习和深度学习的区别与联系

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第一 【Python】:排名第三 【算法】:排名第四 人工智能的浪潮正在席卷全球,诸多词汇...

47370
来自专栏AI科技大本营的专栏

我是如何在1天内构建一个深度学习模型并进击Kaggle比赛的

Fast.ai是Jeremy Howard为结果导向型人群开设的深度学习在线课程。 我读过很多关于机器学习的书,也参加过不少这方面的课程,但我认为Fast.ai...

37980
来自专栏腾讯AI实验室的专栏

把照片唱给你听 :腾讯 AI Lab 国际领先技术邀你「趣」体验

感谢阅读腾讯AI Lab微信号第10篇文章。本文介绍了我们在图像描述生成与TTS等技术跨界的前沿研究进展,并邀请大家测试一个趣味Demo。我们还会分享在多媒体内...

692120
来自专栏深度学习与数据挖掘实战

干货|专访ImageNet冠军颜水成团队,如何将比赛成果在企业中落地?

2017 年 7 月 26 日,计算机视觉顶会 CVPR 2017 同期举行的 “超越 ILSVRC” Workshop 上,宣布计算机视觉乃至整个人工智能发展...

40420
来自专栏BestSDK

Facebook:AI视觉训练升级,1秒钟可记录40000张图片

Facebook近日在西雅图 Data@Scale 大会上公布的一篇研究论文中表示,已成功开发一套新的计算机视觉系统,该系统在每秒钟可完成4万张图片的训练。这样...

421150
来自专栏CDA数据分析师

数据科学人才: 如何顺藤摸瓜提高你的竞争力

摘要 基于一项针对620多位数据专家的调查研究,我们发现数据科学技能分为三个分支:行业知识背景(本文特指商业),技术/编程和数学/统计。这项研究将影响目前数据科...

253100
来自专栏MixLab科技+设计实验室

写给设计师的人工智能指南:图像

“在未来30年, 人工智能将取代目前世界上50%的工作。” ——莱斯大学 计算机科学教授 Moshe Vardi 不管未来怎么样,我觉得提高设计师的效率是眼前最...

46080
来自专栏携程技术中心

深度学习系列 | 诺亚面向语音语义的深度学习研究进展

? 本次演讲简要回顾了深度学习近十年进展,重点介绍华为诺亚方舟实验室最近两年内和深度学习相关的研究成果,并探讨了深度学习的未来趋势。 一、深度学习的近十年进...

21860

扫码关注云+社区

领取腾讯云代金券