CMU 研究人员提出 Deep Attentive VAE：第一个用于深度概率模型中变分推理的注意力驱动框架

代码医生工作室

发布于 2022-06-07 17:58:22

4250

数据是机器学习中必不可少的元素，了解它的分布方式至关重要。无监督方法使生成模型能够了解任何数据分布。他们可能会产生独特的数据样本，如假脸、图形艺术品和风景全景图。它们与其他模型结合使用，以用未观察到的信息补充观察到的数据集，以更好地定义创建感兴趣数据的技术。

尽管取得了可喜的进展，但深度生成建模的成本很高。最近的模型侧重于增加架构深度以提高性能。然而正如分析所示，预测收益随着深度的增加而降低。随着研究人员转向绿色人工智能，仅仅扩展层不再是可行的策略。

最近的方法依赖于增加深度来提高性能并产生与完全生成的自回归模型等效的结果，同时允许通过单个网络评估进行快速采样。然而随着深度的增加，预测改进会下降。在某个点之后，它们甚至将层数加倍，导致边际可能性适度增加。对此的解释可能是，当上下文特征跨越层次结构并使用来自后续层的最新信息进行更新时，来自先前级别的潜在变量的影响会减弱。许多早期的单位崩溃到他们之前的同行，因此不再与推理相关。合理的原因是层次结构中各层之间的本地连接。

深度 VAE 遭受收益递减的影响

这种深度卷积架构的问题在于处理大型 3D 张量。解决这个问题的方法是将长序列的张量视为耦合。

有两种类型的联轴器：

层间耦合：深度注意

该网络采用深度注意技术来发现层间关系。在变分层次结构的层次上，添加了两个深度注意块，用于构建先验分布和后验分布的上下文。

层内耦合：非局部块

交错的非局部块可以利用架构的 ResNet 块中的卷积来利用层内依赖关系。

在各种公开可用的二进制和自然图片基准数据集上进行周到的 VAE。表 2 显示了 CIFAR-10 上尖端的深度 VAE 的性能和训练时间。CIFAR-10 是 3232 张自然图片的集合。与其他深度 VAE 相比，细心的 VAE 获得了最先进的可能性。更关键的是，他们用更少的层实现了它。更少的层导致更少的训练和采样时间。这一进步的基本原理是注意力驱动的层之间的长距离连接导致潜在空间的更多使用。