再谈“炼金术”:可以使用不严谨的方法,但拒绝不严谨的评估方法

原作:inFERENCe 安妮 编译自 inference.vc 量子位 出品 | 公众号 QbitAI

昨天,NIPS大会中“Test of Time”最具时间价值大奖的获得者Ali Rahimi(阿里·拉希米)在演讲时表示,机器学习已经成为了炼金术。此话一出,就引发了大量讨论。

在Reddit上这个话题同样火爆,剑桥大学博士Ferenc Huszár在他的博客inFERENCe阐述了自己的观点,获得了很多人的支持。

他到底说了什么?他怎么看?

像大家一样,我很欣赏阿里在NIPS上的演讲,并且推荐所有人都去看一看。

我也看到了Yann LeCun对阿里演讲的反驳,表示阿里所说的炼金术实际上是工程学。尽管我认为他所反对的观点阿里在演讲中并没有提,但对于技巧(tricks)、实验性证据和理论在工程中扮演的不同角色,LeCun提出了一些非常重要的、不错的想法。

我也想谈谈自己的想法和经验。

不同的创新模型

我们可以将机器学习的知识看成是一张图,在这张图中,各种方法用节点表示,而线条代表着方法间的联系和类比。

创新意味着在这张图上画上新的内容,这里有很多画法——

1. 增加新的节点

这意味着你需要跳出思维定势,发现一些全新的、古灵精怪的可行方法。最近这种类型的机器学习中的创新做法很多,比如herding、noise-as-targets、batchnorm、dropout或GAN。我们在图中添加了新节点,它可能与图的其余部分连接关系很弱,最初大多数人可能不太清楚你的逻辑和推理。

2. 发现现存节点间的联系

这是在寻找新方法的解释——把K-均值当成期望最大化、把dropout和随机梯度下降当成变分推理、把GAN当成f-GAN、把batchnorm当成自然梯度、把去噪自动编码器当成评分匹配等。我们迫切需要在机器学习中使用这种有影响力的方法,因为这些联系帮助我们改进和推广技术,使我们的进展更可预测。

3. 完善模式

这是类比推理。我们注意到图中不完整的模式,推断出一些节点只能在完善了模式后才存在。在2010年NIPS研讨会上,我记得Zoubin Ghahramani开了个玩笑,讲了他和Sam Roweis是通过补全超立方体上的节点撰写一堆了论文,具体如下图所示。值得注意的是,这种“模式完善”在贝叶斯世界之外也发生了,例如双向卷积RNN或PixelGAN自动编码器。

每一种创新模式在构建知识和进步的过程中都至关重要的。我们的圈子更看重上述的第一条(只要论文的标题中有流行词);而大家为了发paper,又而第三条的风险最小、最容易完成,因此大家在这上面也花了很多功夫。

而第二步总是最容易被忽视的,这也是我理解的阿里演讲的主要内容之一。过度关注基准、数据集和实证结果,我们实际上是在为那些研究各种方法为什么管用或无效的研究人员设置障碍

还记得最初的GAN论文中的结果吗?这个结果在当时让人非常震惊,但现在看起来甚至有些拿不出手:

GAN可以说是一个非常有影响力、伟大的新想法。今天,同样结果的论文将无法出版,因为图片看起来不够漂亮。Wasserstein GAN(WGAN)的想法不错,无需去看实验结果。

Yann LeCun说神经网络在90年代由于缺乏凸优化方法所具备的收敛保证,而被不公平地抛弃,同样,今天我们也在不公平地否定任何不产生最先进结果的方法。

我曾经评审过一篇论文,另一位评审员写道:“如果这种方法与现有方法相比,能成为XX领域最有效的方法,那这篇论文就很不错。我想说,这种想法的错误程度,不亚于因为没有理论支撑就否定新想法。(顺便说一句,阿里也没这么说)。

可以使用不严谨的方法

但不能使用不严谨的评估方法

就我而言,我也习惯了使用不严谨的方法,或者理论框架不完善或不存在的方法。但是,

任何人都不应该对那些评价体系不严谨的论文感到满意。

在我看来,有关GAN的论文大多向我们展示了一些漂亮的图片,但我们没有严谨的方法来评估样本的多样性,或者是否有任何形式的过拟合。

根据我的经验,将一个足够新颖的深度学习理论应用于实践是一个脆弱的过程:一开始不管用,然后可能终于管用了却不收敛,接下来又收敛到了错误的地方……这种东西通常是突然管用了,却不清楚具体它有用的原因是什么,这个过程类似于多个假设测试。

你做了数不清的实验,得到了超出你期望的目前最好的结果。潜在的问题是,我们将软件开发过程的需要,与实现手动超参数搜索和选择出的最好结果混为一谈。因此,我们在论文中提到的“经验证据”,可能没有我们期望中的那么公正可靠。

理论一旦出现,就不应该抵制它

我同意Yann的观点,在找到理论支持或严谨的分析之前,先开始采用技术是有好处的。然而问题在于,找到了理论支持之后,基于经验表现的推理往往还会胜过严谨性。

我遇到过几次这种模式:有人提出了一个想法,使用了非常大的神经网络和大量的技巧,经过几个月的手动调整和搜索超参数,在一些大型复杂的问题上运行得很好。但我发现这个方法有一个理论问题。但他们却反驳说:这个方法在实践中运行良好,所以我没有看到问题。

我之前写过两篇文章批评过计划抽样(scheduled sampling)和弹性权重巩固(Elastic Weight Consolidation,EWC)。有审稿人说,这两种方法在“现实世界的问题”上有效,而对于计划抽样方法,甚至有人评价说“这些方法毕竟是在基准竞赛中首先提出来的,肯定是正确的”。

我反对这种说法,如果一个方法可行,但可行的原因是错误的,或者和作者给出的原因不一样,我们就遇到了一个问题。

你可以把“在数据集上做一个深度学习方法”当成统计测试来看,我会认为这种方法的统计功效不足。我们做了很多事情,比如提前停止、手动调整超参数、运行多个实验或只报告最好的结果。大家可能都知道,当测试假设时,不应该做这些事情。然而,这些实践在报告实证结果时被认为是好的。许多人仍然这样做,并认为这些报告的实证结果是支持一种理论“强有力的经验证据”。

总结

感谢阿里的演讲,演讲的内容确实有些容易引起冲突,但我认为这并不是“侮辱”。可能说“挑衅”可能更确切吧。我并不认同阿里的全部演讲内容,但我不认为这是错误的。

阿里的演讲涉及到很多问题,我认为这些问题应该得到群体的认可和赞赏。严谨不是关于学习理论、收敛保证、界限或定理证明的。无论我们是否已经完全开发出用于分析的数学工具,知识的严密性是所有机器学习的准则。

严谨性意味着周密、详尽、细致。它包括了良好的实践,比如诚实地描述方法的潜在弱点,思考可能出了什么问题,设计突出和分析这些弱点的实验,在某些案例中预测算法的行为并根据经验证明它确实符合预期,拒绝使用不合理的评价方法,接受和处理批评……所有这些都应该适用于机器学习,无论深度还是不深,它们确实适用于整个工程。

原文发布于微信公众号 - 量子位(QbitAI)

原文发表时间:2017-12-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

大神Yann LeCun亲授:如何自学深度学习技术并少走弯路(3000字长文)

编者按:深度学习领域泰斗级人物 Yann LeCun 是 Quora上非常踊跃的答者,他乐于分享自己的心得体会。例如,有人问“你最喜欢的机器学习算法是什么?”,...

45090
来自专栏新智元

【Nature 封面论文】随机人工智能群体控制,提高人类协作效率

【新智元导读】噪音,或过程中无意义的信息通常被视为导致麻烦的原因。但最新研究发现,将制造噪音(也即故意做出不协调行为或“捣乱”)的 bot 或 AI 程序放置在...

38680
来自专栏CreateAMind

语义学习-通用类人智能的切入点-实现路径v0.03+视频+解释

《思想本质》一书通过语言和认知对人的思想认知等进行了分析,前部分有一个核心观点是(李德毅院士也提过):语言是思想认知体系的语义索引,语言只是符号,语言表达的含义...

11820
来自专栏大数据文摘

[案例]网易云音乐的个性化推荐

28140
来自专栏AI科技大本营的专栏

四个月速成全栈机器学习?这位黑人小哥三个半月就开始找工作了

程序员转型AI、机器学习需要学多久?1年?3年?这是绝大多数考虑转型的人,从一开始就要认真思考的问题。 光说不练在这里没用,咱们还是要看真实的故事,来看看黑...

37980
来自专栏数据科学与人工智能

【数据挖掘】系统如何分辨出垃圾邮件? 数据挖掘算法与现实生活中的应用案例

相对于武汉,北京的秋来的真是早,九月初的傍晚,就能够感觉到丝丝丝丝丝丝的凉意。 最近两件事挺有感觉的。 看某发布会,设计师李剑叶的话挺让人感动的。“**的设计是...

37380
来自专栏企鹅号快讯

麻省理工学院通过新型人工智能系统用电脑可以合成新材料

即使在缺少试验数据的情况下,设备学习系统也可以在材料“配方”中找到相应的模式。 上个月,麻省理工学院的三位材料科学家及其同事发表了一篇论文,讲述了一种新型人工智...

280100
来自专栏AI科技大本营的专栏

黑人小哥四个月速成全栈机器学习全程解密

程序员转型AI、机器学习需要学多久?1年?3年?这是绝大多数考虑转型的人,从一开始就要认真思考的问题。光说不练在这里没用,咱们还是要看真实的故事,来看看黑人小哥...

1.8K10
来自专栏PPV课数据科学社区

数据挖掘与生活:算法分类和应用

相对于武汉,北京的秋来的真是早,九月初的傍晚,就能够感觉到丝丝丝丝丝丝的凉意。 最近两件事挺有感觉的。 看某发布会,设计师李剑叶的话挺让人感动的。“**的设计是...

43850
来自专栏大数据文摘

注水、占坑、瞎掰:起底机器学习学术圈的那些“伪科学”

一边是今年的NIPS迎来了创纪录的8000多篇投稿,一边是李飞飞、Keras框架的作者François Chollet等大佬摊手承认,机器学习发展已进入瓶颈期。

8700

扫码关注云+社区

领取腾讯云代金券