然而,这样的逻辑系统无法处理由于不完美的感知而产生的视觉不确定性。类似的问题也对基于图像相似性的方法提出了挑战[35,45,46,47,54]。最近的工作以数据驱动的方式解决这个问题。...张等人[70]和胡等人[20]使用随机图像语法[76]并为数据集提供结构注释。一致认为,现有方法没有明确区分感知和推理;相反,他们使用一种单一的神经模型,牺牲可解释性来换取更好的性能。...Cheng 等人[75]研究了 RPM 中的师生环境,而 Steenbrugge 等人[57]则专注于改进学习的生成方法。...两个数据集均由 7 个不同的 RPM 配置组成,每个配置均包含 10,000 个样本,均分为用于训练的 6 个折叠、 2 个折叠用于验证, 2 折叠用于测试。...这种能力类似于双向自上而下和自下而上的推理,增加了一种在先前的仅判别性方法中通常被忽略的生成风味[17,20,53,59,70,72,75]。