前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >CMU 研究人员提出 Deep Attentive VAE:第一个用于深度概率模型中变分推理的注意力驱动框架

CMU 研究人员提出 Deep Attentive VAE:第一个用于深度概率模型中变分推理的注意力驱动框架

作者头像
代码医生工作室
发布2022-06-07 17:58:22
3180
发布2022-06-07 17:58:22
举报
文章被收录于专栏:相约机器人相约机器人

数据是机器学习中必不可少的元素,了解它的分布方式至关重要。无监督方法使生成模型能够了解任何数据分布。他们可能会产生独特的数据样本,如假脸、图形艺术品和风景全景图。它们与其他模型结合使用,以用未观察到的信息补充观察到的数据集,以更好地定义创建感兴趣数据的技术。

尽管取得了可喜的进展,但深度生成建模的成本很高。最近的模型侧重于增加架构深度以提高性能。然而正如分析所示,预测收益随着深度的增加而降低。随着研究人员转向绿色人工智能,仅仅扩展层不再是可行的策略。

最近的方法依赖于增加深度来提高性能并产生与完全生成的自回归模型等效的结果,同时允许通过单个网络评估进行快速采样。然而随着深度的增加,预测改进会下降。在某个点之后,它们甚至将层数加倍,导致边际可能性适度增加。对此的解释可能是,当上下文特征跨越层次结构并使用来自后续层的最新信息进行更新时,来自先前级别的潜在变量的影响会减弱。许多早期的单位崩溃到他们之前的同行,因此不再与推理相关。合理的原因是层次结构中各层之间的本地连接。

深度 VAE 遭受收益递减的影响

这种深度卷积架构的问题在于处理大型 3D 张量。解决这个问题的方法是将长序列的张量视为耦合。

有两种类型的联轴器:

  • 层间耦合:深度注意

该网络采用深度注意技术来发现层间关系。在变分层次结构的层次上,添加了两个深度注意块,用于构建先验分布和后验分布的上下文。

  • 层内耦合:非局部块

交错的非局部块可以利用架构的 ResNet 块中的卷积来利用层内依赖关系。

在各种公开可用的二进制和自然图片基准数据集上进行周到的 VAE。表 2 显示了 CIFAR-10 上尖端的深度 VAE 的性能和训练时间。CIFAR-10 是 3232 张自然图片的集合。与其他深度 VAE 相比,细心的 VAE 获得了最先进的可能性。更关键的是,他们用更少的层实现了它。更少的层导致更少的训练和采样时间。这一进步的基本原理是注意力驱动的层之间的长距离连接导致潜在空间的更多使用。

这张图清楚地表明,用更少的层,细心的 VAE 可以实现更好的对数似然

可以增强现有深度概率模型的表达能力。它可以通过在潜在遥远的潜在变量之间选择有意义的统计联系来实现。通过描述潜在空间中相邻和远处的相互作用,注意力过程可以在深度概率模型中产生更具表现力的变分分布。通过消除对深层层次结构的要求,专心推理最大限度地减少了计算足迹。

https://openreview.net/pdf?id=T4-65DNlDij

https://github.com/ifiaposto/Deep_Attentive_VI

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-06-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 相约机器人 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档