如何抉择是否要做机器学习?如何入门机器学习?

1 疑问

今天又有公众号读者问我一些关于职业选择、入门AI的问题,想想它们同样曾经困扰着我,相信现在也还困扰着一些人,未来可能还会有人面临这样的问题。我深知你们心里很焦急,可能也有点无助,你们的心情我现在完全可以体会得到。

本人不才,资历尚浅,深知对这些问题可能无法做出准确的回答,又有些担心把你们带到坑里。今天,我算是作为半个过来人,跟大家分享下自己的经历,但愿能够帮助你们从中做出更好的选择,相信关注我公众号的你们都是最棒的!

2 AI

人工智能是时代发展的必然产物,这句话我相信绝大部分人都会同意。大家也都看到了,google作为当今世界科技真正的引领者,他们的研究动向可以说基本就是未来的方向,公众号里在读研读博或科技人员都有这种感觉,他们随便发的一篇论文,1,2年引用量就能好几千。

目前他们在做的很多行业都和AI紧密相关,他们正在尝试用AI技术重做各个行业之前的很多难的问题。昨天在检索一篇组合优化的论文时,在2015年,google就已经尝试用神经网络模型(seq2seq+attention)来解决组合优化中的经典问题,比如有限元中的三角形划分,旅行商问题,并称这种模型为Pointer Network,论文的引用量现在已经4500+次,并且在今年又借助深度强化学习模型更好地解决了TSP100。虽然离着实际应用还有一点点距离,但是他们正在创造无限可能,正在革新我们对已有问题解决方法的认知。

这些都在表明,将来人人可能都要或多或少的享受AI,应用AI,研究AI,就像十几年前,认识3w.com带来的知识信息互联一样。

所以,AI这个方向,应该是没有问题的,它不会像流星歌曲一样,一阵就过去了。

3 改变

如果你热爱新技术,或者想跟上时代步伐,抑或想要追随潮流不想被时代所抛弃,但是现在做的又和AI不那么相关,你就要尝试着去改变了。

改变有时很难,但如果到了非改不行时,你就要咬牙往下坚持了。

今天抖音上看到关于改变的一个小视频,觉得蛮不错,我把它一个一个截成图片,贴在这里,希望能鼓励到那些想改变但是却迟迟迈不出这一步的小伙伴。

有没有感动到你~~

4 我的入门

在毕业后、准备AI前,我一直做软件后台开发,会捎带着做些组合优化相关的活,已有2年。边工作边准备不是一件简单的事情,我又是一个做事比较拖拉的人,再加上自己不属于聪明的那类人,甚至有些愚笨。所以,我告诫自己要踏实再踏实些。

我先把机器学习是做什么的在网上查了查,然后我开始学习研究基础算法,这其中包括常用的排序算法,9个排序算法一个一个的将其原理搞清楚,代码写出来,再每天去思考做几道leetcode的题,到后来我坚持做完170多道,现在觉得多做一些基础算法题对于训练我们的算法能力还是蛮重要的。

再后来,我开始阅读西瓜书的第一章,发现周老师总结的非常棒,基本这一章就将机器学习的常规套路讲的很清楚了,基于统计学,需要数据支持,算法计算得出参数,并有评价模型的方法,这些言简意赅,但却不少一个核心,透彻地告诉了我机器学习要怎么学。西瓜书的第一章是最重要的,后面的无非就是在重复这一章的理论。

有了大概轮廓后,我当时决心就要彻底弄明白几个算法,包括从算法原理,算法代码的不调包实现。包括,最小二乘法的线性回归模型,逻辑回归二分类,贝叶斯模型的后验借助先验求解,高斯混合模型的EM算法求解。这些算法,我记得不光理解明白原理,还要将模型一步一步编码实现出来。这一步帮助我进一步理解ML是怎么一回事,当时还总结出了它的算法框架,一般先列出优化的残差(成本)函数,然后通常用梯度下降调节参数,采取一定学习率去优化接近残差的最小。

这一步,需要严格建立样本个数维度,特征个数这个维度,这两个维度将会一直贯穿AI始终。当时记得在推导、编码高斯混合的EM求解时,还真是费了一番功夫,当时脑海里只记得高斯分布,还不清楚还有二维、更高维度的高斯分布,并且概率密度公式是不一样的,但是GMM-EM的求解第一个就和此相关。数据的分布不是仅体现在这个算法上,它的重要性将会体现在更多方面,它是和算法性能紧密相关的。

再之后,我开始去Kaggle做题,记得很快就做完了泰坦尼克号那个题,我从基础的逻辑回归开始,集成算法,xgboost这些常规算法,发现最后的准确率只能在0.86左右,这让我很郁闷,记得当时的排行榜0.89才能进TOP3%的样子,怎么会差的这么多?我开始不断学习Kaggle上的其他牛人的解决方法,发现充分理解数据的意义,筛选组合最佳特征,清洗数据,编码数据,都是需要技术、经验的事,这些可能很难在书本上看到,再有对于中间过程的处理,他们显得很有技巧,总之开始做Kaggle时,我意识到真正的预测显得不是那么神秘,不是那么AI,相反这有些无趣,不过这些让我快速成长,之后又做了很几个,不过排名从来没有进入过前三,看来现在是时候再去做Kaggle了,弥补之前的遗憾。

做Kaggle,会学到很多有用的东西。

5 找工作

我们入门AI,大部分都不是为了单纯的入门,更多的都想从事这方面的工作。我也和你们一样这样想,要去做这方面的工作。

面试前我把简历上的每一项都好好回想了一遍,自问自答,保证简历上的任何点都无盲点,自己拿不准的任何一条都不写在简历上。所以到了面试时,基本还算顺利,算是比较幸运。

当下正是校招季,偶尔作为一面,面试过很多背景很牛逼的,国内、外的背景一流的都有。当然,如果你出身名校,恭喜你占得先机。不过,就像开始问我的小伙伴,背景不是最好的,又非常想从事AI相关工作,应该怎么去调节自己呢? 既然已经这样,背景已经无法改变,又什么是可以改变的呢?这些改变是现在的改变,不一定让你大放异彩,至少也得给你加分,这些可能包括大赛的TOP10,编写过至少3W行以上的代码,有着很强的某些特质……

记住一点,如果你最近一两年取得了很棒的成果,会很大程度上弥补你的背景,举个极端例子,马云杭州师范毕业,但是提起马云谁又会想到他的学校呢? 同样适合你,让别人觉得你现在就很棒,如果你背景一般,这更显得重要,这就要求你现在要更加努力,是的,超乎一般的努力!为什么?面试过几个背景很强的应届生,他们或许不用现在做的太好,但是他们太努力了现在就已经做得很好。可以说是:比啥,啥都强!因此,你知道该怎么努力了吗?

6 读博还是工作

学历要求越来越高,基本目前从事真正与AI相关的这边最低都是硕士了,身边更是有博后,博士好多,这就是现实。但是这不代表所有地方,所有单位都是这么要求。更不能仅仅因为公司这样要求,你才去读博。

我曾求在知乎上问过一个问题,什么样的人是真正读博做科研的料? 大部分的回答都是你首先要觉得做科研、发论文是一件很喜欢做的事情,有极高的热情想在某个小领域写上自己的名字,再有你得能坐得住,喜欢科研生活。

就AI工作而言,如果你想做真正有技术含量,真正有挑战性的AI时,读个博士或许是个不错的选择,很多人都这么做。

以上一些个人经历,但愿看完这些,有疑惑的小伙伴心里会敞亮一点点。如果不反感,帮我点下广告支持下吧。

原文发布于微信公众号 - Python与机器学习算法频道(alg-channel)

原文发表时间:2018-08-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

结构化数据上的机器学习大杀器XGBoost

XGBoost是一个机器学习算法工具,它的原理本身就并不难理解,而且你并不需要彻底搞懂背后的原理就能把它用得呼呼生风。 它的威力有多强? 自从2014年9月份在...

3289
来自专栏AI科技评论

中科院赵军:开放域事件抽取 | CCF-GAIR 2018

AI 科技评论按:2018 全球人工智能与机器人峰会(CCF-GAIR)在深圳召开,峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)承办,得到了...

3004
来自专栏灯塔大数据

干货 | 从菜鸟到老司机,数据科学的 17 个必用数据集推荐

编者按:数据集可谓是数据科学的练兵场,不管是对菜鸟入门还是老司机上路,能找到一个好用的数据集无异于如虎添翼。以下是雷锋网整理编译的 17 个常用数据集,并列举了...

2967
来自专栏量子位

AI计算力6年增长30万倍,远超摩尔定律 | OpenAI分析报告

为了感受这个速度,OpenAI发布了一份分析报告,说的是2012年开始,AI训练所用的计算量呈现指数增长,平均每3.43个月便会翻倍。

893
来自专栏智能算法

干货 | 从菜鸟到老司机,数据科学的 17 个必用数据集推荐

编者按:数据集可谓是数据科学的练兵场,不管是对菜鸟入门还是老司机上路,能找到一个好用的数据集无异于如虎添翼。以下是编者整理编译的 17 个常用数据集,并列举了适...

4196
来自专栏AI科技评论

AI科技评论专访Yann LeCun: 关于深度学习未来的14个问题

“ICLR算是一个必须的选择吧,因为其实没有很多的选择。所以从1996或者1997年以后,我组织了一个工作室,学习工作室,每年大概只有八九十人参加。到了2006...

39912
来自专栏新智元

【iPhone X重磅发布】携A11人工智能芯片登场,人脸识别9大特征

【新智元导读】苹果13日凌晨发布了本年度最重量级的产品——iPhone X (iPhone 10)。这款用人脸识别进行解锁的新iPhone 可能是苹果AI属性最...

3046
来自专栏AI科技评论

干货 | 从菜鸟到老司机 数据科学的 17 个必用数据集推荐

编者按:数据集可谓是数据科学的练兵场,不管是对菜鸟入门还是老司机上路,能找到一个好用的数据集无异于如虎添翼。以下是雷锋网整理编译的 17 个常用数据集,并列举了...

3994
来自专栏大数据挖掘DT机器学习

如何用爬虫和挖掘技术设计一款数据舆情产品?(附开发源码)

网址:http://www.kesci.com/apps/home_log/index.html#!/competition ? 一. 动机与问题背景 ...

7156
来自专栏数据科学与人工智能

人工智能/机器学习知多少?

从在智力竞赛节目和围棋人机大战战胜人类,到推送广告时表现出种族偏见而备受抨击,我们似乎已经进入了人工智能发展步伐迅速加快的时代。但就目前而言,我们还无法让机器具...

3406

扫码关注云+社区

领取腾讯云代金券