首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >AlphaGo 团队最新研究:作为序列学习的生成模型(22ppt)

AlphaGo 团队最新研究:作为序列学习的生成模型(22ppt)

作者头像
新智元
发布2018-03-26 17:05:42
发布2018-03-26 17:05:42
9840
举报
文章被收录于专栏:新智元新智元

【新智元导读】本文是 Google DeepMind 研究科学家 Nal Kalchbrenner 在 NIPS 2016 RNNSymposium 上的演讲 ppt,讲义介绍了作为序列的生成模型在文本到语音的转换、翻译等技术上的应用。Nal Kalchbrenner 的主要研究领域包括神经机器翻译、卷积句子模型、RNN架构以及图像、音频和视频的生成模型。Nal Kalchbrenner 也是 AlphaGo 团队的一员。

讲者介绍

Nal Kalchbrenner 是 Google DeepMind 研究科学家,主要研究领域包括神经机器翻译、卷积句子模型、RNN架构以及图像、音频和视频的生成模型。Nal Kalchbrenner 也是 AlphaGo 团队的一员。

作为序列学习的生成建模

学习自然数据的分布

  • 1D序列,例如文本或声音

  • 2D张量(例如图像)的自回归模型

  • 3D张量,例如视频

  • PixelRNN/PixelCNN (图像)
  • Video Pixel Nets (视频)
  • ByteNet (语言/seq2seq)
  • WaveNet (音频)

前人研究:

  • 自回归图像模型(Autoregressive image models)
  • Dilated convolutions
  • RNN 与 语言/翻译建模(RNN and language/translation modelling)

1D序列的架构(Bytenet/Wavenet)

  • 编码中dilated、masked 1D卷积的堆栈
  • 架构在时间维度(在训练或评分过程)中是可并行的
  • 容易接入多个状态

模型&测试

  • ByteNet+SubBN 1.33
  • ByteNet+Layer Norm 1.315

1D序列(Bytenet / Wavenet)的架构

可用于从文本到语音的转换

用于机器翻译和Seq2Seq的Bytenet

  • 通过保留解析度泛化LSTM seq2seq
  • 动态unfolding,而非attention
  • 线性时间计算

Bytenet 学习对齐源和目标的记号

视频像素网络(Video Pixel Net )

Masked卷积

保留解析度的CNN编码器→PixelCNN解码器

离散化(SoftMax)

Video Pixel Net

  • Moving MNIST

Moving MNIST 的V**样本

Moving MNIST 的V**样本

Moving MNIST 的V**样本

Moving MNIST 的V**样本

Robotic Pushing 的V**样本

Robotic Pushing 的V**样本

规则常见设置和跨模态架构。

可量化的提升和最先进的结果!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2016-12-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档