如何看待「机器学习不需要数学,很多算法封装好了,调个包就行」这种说法?

不抖机灵,想从接触过机器学习学术圈但已投身工业界的角度来回答。 我认为:大部分机器学习从业者不需要过度的把时间精力放在数学上,而该用于熟悉不同算法的应用场景和掌握一些调参技巧。好的数学基础可以使你的模型简洁高效,但绝非必要的先决条件。

原因如下:

1. 即使你有了一定的数学功底,还是不知道怎么调参或者进行优化

这话说的虽然有点自暴自弃,但扪心自问在座的各位,当你发现 accuracy 不好、loss 很高、模型已经 overfitting 了,你唰唰唰列列公式玩玩矩阵就知道问题出在哪里了吗?不一定。诚然,懂得更多的统计原理可以帮助推测问题出在了哪里,你可能换了一个 loss function 或者加了新的 regularizer,但结果不一定会更好:(

数学基础之于机器学习从业者很像 debugger 之于码农,它给了你方向,但不能保证你一定可以解决问题。那怎么能解决问题?只有经验经验经验,别无他法,有时候甚至靠的是直觉。数学基础是好的内功基础,但你调包调多了,其实也慢慢能抓到一些感觉,不必看不起 “调包侠”。

2. 工业界可以应用的模型是很有限的,可调的参数也是有限的

工业界选择模型非常看重可解释性,效率,以及和整个系统的整合能力。举例,在我的工作中,大部分时间都在使用 Regression 和 Decision Tree 相关的算法(如 Random Forests)。是因为这两个算法最好么?不,恰恰是因为这两个算法稳定及高效,而且容易解释。对于这样的模型,你即使数学能力很强,能调整的参数也是有限的。根据网上的例子和经验,大量的工程师可以在数学基础稍弱的情况下做到很好的效果。

3. 数学 / 统计知识已经成了既得利益者刻意为外来者建立的一道壁垒

不知道大家有多少人是从事过 ML 研究的。我个人的观察是做出成绩的 ML 研究人员是有限的,科班出身的 researcher 更是远远无法工业界的空缺。所以大家没有必要担心会被转行者抢了饭碗,也没有必要刻意鼓吹一定要懂矩阵,凸优化,等数学知识才配做机器学习。大家都是出来卖的,不必互相为难。说来惭愧,在工作中我常常跟老板说这个人不能用,你要用我这种科班出身的人,但我内心是不赞同的。

每当我看到知乎上有人问机器学习怎么入门,结果大家立马推荐第一本就看 PRML 和 Statitical Learning 以及一大堆公开课和数学课的时候,我的内心是崩溃的。各位答主的目标是把所有人都吓回去还是秀一下优越感?

4. 理论模型和实际应用分的是两块不同的蛋糕

承接第 2,3 点,做理论研究的发力于突破,提出新的模型或者优化方法,做应用的致力于把模型应用于数据上,攫取商业价值。这两者不存在利益冲突,做理论的人有自带正统光环的优势,所以更该显得大度一些。只有 “调包” 的人越来越多,这个行业才会繁荣,因为证明技术落了地,可以带来实际价值

5. 行业的发展趋势是降低工具的使用难度,这让我们不必反复造轮子

亚马、逊谷歌、微软等各大平台都开放了他们的机器学习工具。以前人们还需要自己写各种模型,好一些的调一下 sklearn,但现在 Azure ML Studio 已经方便到零代码了。年初的时候,我试了一下 ML studio,简直方便的可怕,完全是图形拖动连接就可以建立模型,那一刻我仿似看到了自己即将失业。

6. 文艺一点说,我们需要更包容的心态,切勿文人相轻。

想要接触了解一门学科,应该先有兴趣,才有探索的积极性。就像我们第一次看到 Hello word 出现的样子,很多刚入行的人第一次看到机器学习能解决实际问题时,会产生浓厚的兴趣。

我怕的就是所谓的圈内人都说你必须要会矩阵分解,必须要会用 trace 算导数,必须会优化,才能开始学习机器学习。这个周期太长,很多人连开始的勇气都没有~ 我觉得不管怎么样,要先动手做起来,发现自己的不足,再去补充需要的东西。

既然学术是自由的,我们就打开大门,欢迎大家都进来坐坐。如果他 / 她不喜欢,欢迎到隔壁串门。但我们不要给自己家门垒了高高的台阶,说闲人勿进。久而久之,难免门可罗雀。

综上,我觉得应用机器学习模型和技巧既不能完全不懂数学,两眼一抹黑,也不该要求每个从业者都要精通各种数学理论。模型应用者要长存对理论的敬畏之心,不要总想搞个大新闻说 “机器学习也不过如此”,但做理论的也不必觉得高人一等,别人都是二等公民。

好了,不多说了,我去调包了 (滑稽)

原文发布于微信公众号 - AI研习社(okweiwu)

原文发表时间:2017-09-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

如何看待「机器学习不需要数学,很多算法封装好了,调个包就行」这种说法?

编者按:这个问题放到更大的范围,也同样适用于回答“学习数据挖掘是否需要学好数学?”。作者从实践的几个方面给出了自己的理解,小遍认为还是比较好的回答了这个问题。 ...

3955
来自专栏量子位

吴恩达对话LeCun:神经网络跌宕四十年

最近,这位AI领域的传奇大牛,接受了另一位大牛吴恩达的视频专访。在这次对话中,LeCun回顾了卷积神经网络、反向传播的历史,以及他如何从一个默默无闻的“法国小孩...

1152
来自专栏新智元

【重磅】吴恩达率百度大脑完胜“最强大脑”王峰,AI技术解密

【新智元导读】人工智能又一次战胜了人类!这次是在《最强大脑》。吴恩达率队的百度人工智能在人脸识别跨年龄识别任务中以 3:2 的比分惊险击败《最强大脑》名人堂轮值...

3796
来自专栏新智元

红色预警尚未结束,北京启用机器学习预测空气污染

【新智元导读】今年冬天北京启用雾霾预警系统,将传统的大气化学物理模型与机器学习相结合,力求在更短的时间内做出更精确的预测。12月16日启动的今年首次空气重污染红...

3665
来自专栏数据派THU

谷歌大脑2017技术研究总结 | Jeff Dean执笔(附论文、 数据集)

本文经AI新媒体量子位(公众号ID:qbitai)授权转载,转载请联系出处 本文长度为8311字,建议阅读10分钟 Jeff Dean回顾了谷歌大脑团队过去一年...

4185
来自专栏CDA数据分析师

AI 又赢了! OpenAI 玩Dota 2在5v5比赛中击败人类玩家

原标题《Dota 2被攻陷!OpenAI 人工智能5V5模式击败人类玩家(4000分水平)》

1253
来自专栏Python攻城狮

DIKW模型与数据工程1.DIKW 体系2.数据工程领域中的DIKW体系3.数据工程 领域职业划分4.数据分析5.数据建模基础

DIKW体系是关于数据、信息、知识及智慧的体系,可以追溯至托马斯·斯特尔那斯·艾略特所写的诗--《岩石》。在首段,他写道:“我们在哪里丢失了知识中的智慧?又在哪...

1513
来自专栏吉浦迅科技

(图解)神经网络的复兴:重回风口的深度学习

2012年,「GPU+深度学习」真正引爆革命火花 由于多层神经网络的计算量庞大、训练时间过长,常常跑一次模型就喷掉数周、甚至数月的时间,2006年该时也仅是让学...

38910
来自专栏数据派THU

清华大学张长水教授:机器学习和图像识别(附视频、PPT下载)

本篇干货整理自清华大学自动化系教授张长水于2018年4月27日在清华大学数据科学研究院第二届“大数据在清华”高峰论坛主论坛所做的题为《机器学习和图像识别》的演讲...

3703
来自专栏智能计算时代

神经网络计算爆炸

深度挖掘的公司开始为特定应用定制这种方法,并花费大量资金来获得初创公司。 具有先进并行处理的神经网络已经开始扎根于预测地震和飓风到解析MRI图像数据的许多市场,...

3335

扫码关注云+社区

领取腾讯云代金券