首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >[代码]神经符号生成机器

[代码]神经符号生成机器

作者头像
用户1908973
发布2022-06-10 17:28:04
2270
发布2022-06-10 17:28:04
举报
文章被收录于专栏:CreateAMindCreateAMind

https://github.com/JindongJiang/GNM

摘要

调和符号和分布式表示是一个至关重要的挑战,可以潜在地解决当前深度学习的局限性。最近,通过以生成对象为中心的表示模型,在这个方向上取得了显著的进展。虽然学习识别模型以无监督的方式从原始图像推断以对象为中心的符号表示,如边界框,但没有这样的模型可以提供生成模型的另一个重要能力,即根据学习的世界密度的结构生成(采样)。在本文中,我们提出了生成神经符号机器,这是一个结合了分布式和符号表示的优点的生成模型,支持符号组件的结构化表示和基于密度的生成。这两个关键属性是通过两层潜在层次实现的,具有用于灵活密度建模的全局分布式潜在和结构化符号潜在图。为了增加这种层次结构中模型的灵活性,我们还提出了 StructDRAW prior。实验表明,该模型在结构精度和图像生成质量方面明显优于以往的结构化表示模型和最新的非结构化生成模型。我们的代码、数据集和训练模型可从以下网址获得https://github.com/JindongJiang/GNM

介绍

人类和机器智能的两个核心能力是学习世界的抽象表示,并以反映世界因果结构的方式产生想象力。深层潜在变量模型,如变分自动编码器(VAEs) [31,39]提供了一个优雅的概率框架,以无人监管和端到端可训练的方式学习这两种能力。然而,在大多数 VAEs 中使用的单一分布向量表示在实践中仅提供了由独立先验诱导的弱或隐含形式的结构。因此,在表示复杂的、高维的和结构化的观察时,例如包含各种对象的场景图像,该表示很难表达有用的结构属性,例如模块性、组合性和可解释性。然而,这些特性被认为是解决当前深度学习在各种系统中的限制的关键 2 [29]推理等相关能力[6],因果学习[40,37],问责制[13],以及系统的分布外泛化能力[3,46].通过学习将观察表示为其实体表示的组合,特别是以对象为中心的场景图像方式,在解决这一挑战方面已经有了显著的进步[15,32,18,45,8,17,14,12,33,11,26,48].这些模型配备了更明确的归纳偏差,如对象的空间位置、符号表示和合成场景建模,提供了一种通过基于交互实体的表示的合成来识别和生成给定观察的方法。然而,这些模型中的大多数不支持生成模型的另一个关键能力:通过学习观察数据的密度来生成假想的观察。尽管这种根据可能世界的密度进行想象的能力在例如规划和基于模型的强化所需的世界模型中起着至关重要的作用

[22, 21, 1, 36, 24, 38, 23], 以前的大多数基于实体的模型只能通过手动配置表示来合成人工图像,而不是根据底层的观察密度。虽然 VAEs 支持此功能[31,19],在其表示中缺乏明确的合成结构,当生成复杂图像时,它在实践中容易失去全局结构一致性[44,19].在这篇论文中,我们提出了生成神经符号机器(GNM),这是一个概率生成模型,通过支持基于符号实体的表示和分布式表示,结合了两个世界的优点。因此,该模型可以用符号成分来表示观察值,并且还可以根据基础密度来生成观察值。我们通过两层潜在层次在 GNM 中同时实现这两个关键属性:顶层生成用于灵活密度建模的全局分布式潜在表示,底层从全局潜在生成用于基于实体和符号表示的潜在结构图。此外,我们提出了 StructDRAW,一种自回归先验支持的结构化特征图,以提高潜在结构图的表达能力。在实验中,我们发现在结构准确性和图像清晰度方面,该模型明显优于以前的结构化表示模型和高表达性的非结构化生成模型。

更多内容请参考原文。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-05-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档