前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >「神经常微分方程」提出者之一David Duvenaud:如何利用深度微分方程模型处理连续时间动态

「神经常微分方程」提出者之一David Duvenaud:如何利用深度微分方程模型处理连续时间动态

作者头像
机器之心
发布2020-07-06 11:01:38
1K0
发布2020-07-06 11:01:38
举报
文章被收录于专栏:机器之心机器之心

2020 WAIC·开发者日将于7月10日-11日线上举办。多伦多大学助理教授、向量学院联合创始人、NeruIPS 2018 最佳论文奖得主,将带着对微分方程和连续时间的最新思考出现在 WAIC 开发者日。

提到 David Duvenaud 你或许有些陌生,但最近大热的「神经常微分方程」想必你一定听说过。

《Neural Ordinary Differential Equations》获得 NeruIPS 2018 最佳论文奖,David Duvenaud 正是该论文的通讯作者,也是论文一作陈天琦的导师。

David Duvenaud 是多伦多大学向量学院的创始人之一,能源预测和贸易公司 Invenia 的联合创始人,目前在多伦多大学担任计算机科学助理教授。

他在剑桥大学获得博士学位,后在哈佛大学 Intelligent Probabilistic Systems 实验室完成博后工作。

目前,他在多伦多大学教授概率学习和推理、机器学习统计方法、可微分推断和生成模型等课程,指导的学生有陈天琦、Jesse Bettencourt、Dami Choi、Will Grathwohl、Eric Langlois、Jonathan Lorraine、Jacob Kelly 和 Winnie Xu。

David Duvenaud 与微分方程的羁绊

David Duvenaud 的主要研究方向是连续时间模型、隐变量模型和深度学习。近年来,他的工作和微分方程产生了紧密联系。

深度学习能够与微分方程相结合?是的。在 NeruIPS 2018 获奖论文中,陈天琦、David Duvenaud 等人将二者相结合,进行架构创新,提出一类新型深度神经网络「神经常微分方程」(ODEnet)。它不拘于对已有架构的修修补补,而是完全从另外一个角度考虑如何以连续的方式借助神经网络对数据建模。

借助微分方程,ODEnet 将神经网络离散的层级连续化了,因此反向传播也不再需要一点一点传、一层一层更新参数。

论文参与者认为,既然残差连接就是常微分方程(ODE)的离散化,那么常规神经网络的前向传播过程岂不就是微分方程给定初值解末值的过程?如果用业界成熟的微分方程求解器(ODE Solver)解某个 ODE,这不就能代替前传和反传么?

于是他们在 ODENet 中使用神经网络参数化隐藏状态的导数,而不是如往常那样直接参数化隐藏状态。这里参数化隐藏状态的导数就类似构建了连续性的层级与参数,而不再是离散的层级。因此参数也是一个连续的空间,我们不需要再分层传播梯度与更新参数。

这篇论文证明了常微分方程可以解决复杂问题,算是对之前相关研究的一次总结。

该论文获奖后获得了大量关注,而后来的一件事又把它推到了风头浪尖。

获奖一年后,David Duvenaud 在 NeruIPS 2019 大会上发表演讲,回顾了 NeruIPS 2018 获奖研究 ODENet。

在演讲中,他阐明了 ODENet 论文的几点问题,如论文最终选择「Neural Ordinary Differential Equations」作为标题是因为它短小精悍,更容易引发关注;做这项研究的动机是为了讨好 Dougal Maclaurin、Matthew Johnson 这些前辈;在对比不同方法的参数效能时,该研究没有对基线方法进行微调;该研究认为使用 ODE 求解器能够根据给定的误差容忍度选择适当的步长逼近真实解,但 ODE 领域研究者认为,ODE 求解器并不总是有效……

这段演讲再次引发了大量讨论,很多人表示理解,并认为 David Duvenaud 非常坦诚。

不管是否存在争论,David Duvenaud 对微分方程的研究没有停下。

发表 ODENet 后不久,David Duvenaud 等人再次利用常微分方程提出新架构——可逆残差网络。这次他们利用 ResNet 作为常微分方程的 Euler 离散化,并证明通过简单地改变标准 ResNet 的归一化机制就可以构建可逆 ResNet。

2019 年 12 月,David Duvenaud 与陈天琦合作发表论文《Neural Networks with Cheap Differential Operators》,探讨了如何使用廉价的可微算子处理神经网络架构的梯度计算。

今年初,David Duvenaud 等人发布论文《Scalable Gradients for Stochastic Differential Equations》,将计算常微分方程解的梯度的 adjoint sensitivity 方法应用于随机微分方程。

微分方程与连续时间动态

从 NeruIPS 2018 最佳论文「神经常微分方程」到基于常微分方程构建的可逆残差网络,再到今年年初的《Scalable Gradients for Stochastic Differential Equations》,David Duvenaud 与常微分方程的羁绊不可谓不深。

在不久后举行的 2020 年世界人工智能大会云端峰会开发者日专场,David Duvenaud 将分享他对连续时间模型的思考,此次演讲同样涉及微分方程。

离散时间和连续时间差别巨大。许多现实数据,如病历、客户交互或金融交易,是以不规则时间间隔记录的。但是,大部分深度学习时序模型(如循环神经网络)要求数据以规则的时间间隔记录,如每小时记录一次。

那么如何处理连续时间动态呢?

David Duvenaud 将在此次演讲中介绍,利用深度微分方程模型来处理连续时间动态方面的近期进展,这类模型可以拟合新的基于时序的丰富参数化分布。此外,该演讲还将讨论这类模型的优缺点,以及它们在病历和运动捕捉数据上的效果。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-07-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档