学界 | Ian Goodfellow发推讲2个机器学习黑魔法,教你如何推导公式

大数据文摘作品

作者:小鱼、土豆

《深度学习》(花书)作者Ian Goodfellow今早连发了10条推特,细数了他最喜欢的两个机器学习“黑魔法”。他在著名的GAN论文中使用这两个小窍门推导了公式。

最后,他还不忘操心大家的学习,推荐了一本关于凸优化的书。当然,更详尽的操作还是要去看Goodfellow本人的《深度学习》。文摘菌给大家搭配了斯坦福的一门MOOC,一起学习风味更佳~拉至文末查看喔~

Goodfellow称,这是关于机器学习,他最喜欢的两个快速理解理论推导的“黑魔法”。

以下是Ian Goodfellow推特内容:

很多时候,我们用代数或微积分来分析神经网络的最优行为。想实现一些函数的权重衰减或许可以用代数方法实现,但想要用代数方法解决神经网络中大多数函数的参数优化问题就有些过于复杂。

为了得到一个不太复杂的模型,常见的方法就是使用线性模型,因为线性模型能很好的解决凸优化问题。但线性模型又过于简单,其模型效果远不及神经网络。

黑魔法1:将神经网络视为一个任意函数,因此可以在同一空间优化所有的函数f,而不是特定的神经网络结构的参数theta。与使用参数和特定结构模型相比,这种方法非常简洁。

将神经网络视为一个函数,保留了线性模型的诸多优点:多种凸函数问题。例如,分类器的交叉熵损失在函数空间中就是一个凸优化问题。

这个假设并不准确,特别是与线性模型相比。但是根据通用逼近定理,神经网络可以较好地近似任意函数。

黑魔法2:如果你在同一空间优化所有函数时遇到困难,可以将函数想象成一个高维向量的分量。此时,关于R^n中x的评估函数f(x),就变成了在一个向量中查找f_x,其中x是对分量的索引。

通过这种方式,对函数进行优化就变成了一个常规微积分问题。这种方法很直观,但不是100%准确。有关更多正式版本和关于何时可以使用的限制信息,请参阅:

http://www.deeplearningbook.org/contents/inference.html

这篇论文中我的共同作者和我使用黑魔法破解#1和#2来推导GAN论文的eq 2链接如下:

https://papers.nips.cc/paper/5423-generative-adversarial-nets.pdf

最后的Bonus:推荐了这本凸优化书在斯坦福的pdf版本。

https://web.stanford.edu/~boyd/cvxbook/bv_cvxbook.pdf

文摘菌推荐:可以结合MOOC视频和作业一起服用哦,效果更佳。

https://lagunita.stanford.edu/courses/Engineering/CVX101/Winter2014/about

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2018-05-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据派THU

各类机器学习问题的最优结果合集!附论文及实现地址索引

来源:中国大数据 本文为你介绍RedditSota 统计的各种机器学习任务的最顶级研究成果(论文)。 该 GitHub 库提供了所有机器学习问题的当前最优结果,...

40360
来自专栏数据科学与人工智能

【机器学习】决策树

一棵树在现实生活中有许多类比,并且结果表明它广泛地影响机器学习,包括分类和回归。 在决策分析中,决策树可用于在视觉上和明确地表示决策和作出决策。 顾名思义,它是...

10410
来自专栏人工智能LeadAI

最全算法工程师面试题目整理(一)

1 基于每日用户搜索内容,假设只有少量已知商品的情况下,如何根据用户搜索内容获取平台内没有的新商品? ? ? 答案:这是一条类似于分词“新词获取问题”,答案是...

44560
来自专栏机器学习之旅

总结:常见算法工程师面试题目整理(一)

最近抽风,出去面试了不少公司,和不少算法工程师招聘的朋友有所交流,整理了相关比较有意思的题目,供大家参考:

14640
来自专栏IT派

随机森林之美

导语:随机森林和决策树相比,能更好的防止过拟合。虽然每个基分类器很弱,但最后组合的结果通常很强,这也类似于:“三个臭皮匠顶个诸葛亮”的思想。对比发现Random...

45540
来自专栏视觉求索无尽也

【图像检索】【TPAMI重磅综述】 SIFT与CNN的碰撞:万字长文回顾图像检索任务十年探索历程

基于内容的图像检索任务(CBIR)长期以来一直是计算机视觉领域重要的研究课题,自20世纪90年代早期,研究人员先后采用了图像的全局特征,局部特征,卷积特征的方法...

1.2K10
来自专栏AI研习社

为什么ResNet和DenseNet可以这么深?一文详解残差块为何有助于解决梯度弥散问题

传统的“提拉米苏”式卷积神经网络模型,都以层叠卷积层的方式提高网络深度,从而提高识别精度。但层叠过多的卷积层会出现一个问题,就是梯度弥散(Vanishing),...

36150
来自专栏AI科技大本营的专栏

AI 行业实践精选:利用深度学习识别交通信号灯

最近我在 Nexar 交通信号灯识别挑战赛上获得了第一名,这是一项由 Nexar 组织的计算机视觉比赛,该公司正在开发一款叫做 AI Dashcam 的软件。 ...

62670
来自专栏AI科技大本营的专栏

神探Sherlock如何用AI破案?教你在Excel中搭建一个人脸识别CNN网络

【导读】人脸识别技术已经有了非常广泛的应用,国内大规模监控系统背后运用的技术就是人脸识别。

17210
来自专栏AI研习社

计算机视觉中,有哪些比较好的目标跟踪算法?(下)

相信很多来这里的人和我第一次到这里一样,都是想找一种比较好的目标跟踪算法,或者想对目标跟踪这个领域有比较深入的了解,虽然这个问题是经典目标跟踪算法,但事实上,可...

84660

扫码关注云+社区

领取腾讯云代金券