前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >机器学习的五层境界

机器学习的五层境界

作者头像
小莹莹
发布2018-04-24 12:05:50
8610
发布2018-04-24 12:05:50
举报

前些天在一场关于机器学习的直播中,介绍了自己总结的机器学习的五层境界。很多同学后来私信我说,总结的不错,对他们的学习目标具有一定的参考意义。Ryan表示很开心,因为自己总结的东西能够对别人有一定的帮助,做的事情有意义。国庆期间也认真的想了想,平时工作学习中有很多东西可以总结和归纳,整理出来也许对很多人有帮助,遂决定开通公众号,定期发布一些整理的文章,此为公众号的首篇。

对机器学习感兴趣的人来说,经常会问一个问题:我究竟要达到什么样的水平才能够找到一个满意的工作?现在行业相关的从业人员都大概什么情况?以下为我认为的机器学习的五层境界,供大家参考。

第零层:两眼摸瞎,不知所措

随着 AlphaGo引爆了整个业界,大量的资源都投入到人工智能这个领域中来,其中很重要的一个特点就是大量的人才涌入这个行业。对于新进入这个行业的人来说,大量的名词、噱头让他们不知所措。看到的所有的东西都觉得很重要、很炫酷、很有前途,殊不知真正重要的东西其实很少。 他们学着Python,把玩着Hadoop、Spark,就觉得自己是在搞机器学习了。就像想学编程的同学, 装个VS就觉得自己是一个程序员一样。

与此相伴的是大量的培训机构开了很多压根跟机器学习没有半点关系的课程,但是都打着机器学习的噱头,让新入门的同学更加懵逼了。数据挖掘、机器学习、神经网络、深度学习、强化学习、自然语言处理、计算机视觉、数据处理等等,这些东西都是啥,都有啥区别,我要从哪个开始学?报培训班、学习网络课程都是不错的选择,这是一个花钱买时间和经验的好买卖,但要注意甄别,因为错误的选择纯属浪费时间。对于新入门的同学来说,推荐网易公开课里 Andrew Ng的机器学习,免费且质量较高。

第一层:会用工具跑模型和评估模型,但效果纯靠运气,占比超过95%

处于这一层的同学,大多具备了一定的机器学习理论基础。能看懂基本的公式推导,会使用一些机器学习的工具训练和评估模型。例如,很多同学会使用 TensorFlow搭建网络去训练和评估模型,会使用 Xgboost去跑模型,但模型表现不符合预期或者较差时,不知从何下手,不懂得分析问题的原因以及如何去优化。

一个典型的现象就是,一些数据比赛中,大家用的模型都差不多,但是表现出来的效果千差万别。产生这种现象的原因,就是大家对机器学习模型的理解深度、实战经验差别很大。

其实一线的大公司里,多数做机器学习的工程师,水平都大概处于这个水平(是不是很诧异?但事实就是这样)。他们能看懂机器学习的公式,知道模型的原理(这些都是面试时必备的考察事项),但是实际应用时,还是很难稳定做出好的效果,大部分时候还是靠运气。

处于这一层的同学,缺乏的是实战经验以及对模型的理解深度,推荐多做一些实战类的项目,多思考每种现象或者结果产生的原因。例如多参加 Kaggle的比赛、多跟其他同学交流。

第二层:不仅会用工具,还能够根据应用的特点,去改进模型来获取更好的结果,占比不超过4%

这一层的同学,基本上是一线互联网公司的骨干员工了。他们能够应用工具、改进模型来解决实际应用中遇到的问题,遇到问题也能够思考并解决,但缺乏对机器学习整体的认识和思考,对不同模型在不同应用中的表现及可能存在的问题了解的还不够透彻。

一般来说,处于这个阶段的同学,有能力或者已经成为了大公司里某个具体方向的负责人了,薪水方面也已经开始显现出来优势。想要继续成长,就需要解决更多的实际问题,承担更多的责任和项目,学习和思考的更加全面。

第三层:熟悉各类模型及其特点,并能准确应用,占比不到1%

处于这一层的同学,已经是一线互联网公司里主要业务线的负责人了。他们对各类模型及其特点如数家珍,对于不用的应用及其特点也能够大致的判断适用的模型及可能获得的效果。他们主要的日常工作,就是把握团队的技术方向,跟进科研最前沿,引入最新的技术到相应的产品线中。

这一层的同学,算是凤毛麟角了,整个行业也没有多少人。如果说处于这一层的同学有什么缺陷,那大概是缺少足够的对整个行业有推动力的成绩,例如提出 XX模型或者框架,大大改进了XX。

第四层:行业内知名,推动行业技术的发展

只有极个别的人能够达到这个层次,也大多具有相当的知名度。他们不满足于现有的机器学习的技术,提出了很多对行业技术发展具有长远影响的模型或者框架。

例如,RNN很难对长程的上下文依赖建模,J. Schmidhuber设计了带有门结构的 LSTM 模型,让数据决定哪些信息要记忆,哪些要忘掉,建模效果大大提高了。又比如近年来最让人惊喜的大作,生成对抗网络(GAN),其要解决的,是让机器根据数据学会画画、写文章等创作性问题。机器画画的目标函数怎么定?听起来很难对此建模。一般人首先想到的方法是找人来一个个的对机器生成的作品打分。Ian GoodFellow则从另外一个角度来定义这个问题。既然靠人打分费时又费力,还不太客观,那干脆让机器来打分!假设我们已经有一个能打分的机器 D,现在要训练一个能画画的机器G,那就让G不断地画,D不断地打分,什么时候G的作品在D那里得分高了,就算是学成了。同时D在此过程中也因为大量接触仿品而提升了鉴赏能力,可以把G训练的更好。

这些模型看起来极其优美,大大影响了算法的发展,而其模型的创造离不开扎实的机器学习理论基础和深刻的洞察力。

总结

以上大致总结了一下机器学习的不同层次及其能力标准,大家在打怪升级的过程中,可以作参考。如果有不同的意见或者想法也欢迎私信我,咱们一起聊聊。

END.

来源 :机器学习解惑者

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-10-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 PPV课数据科学社区 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档