从噪声数据中学习解释性规则 deepmind2017

CreateAMind

发布于 2023-09-01 08:36:11

2460

文章被收录于专栏：CreateAMindCreateAMind

前几篇文章的基础：

实现抽象视觉推理+代码阅读

𝛼 ILP: thinking visual scenes as differentiable logic programs

Right for the Right Concept 交互解释符号Learning

从噪声数据中学习解释性规则

摘要

人工神经网络是强大的函数逼近器，能够对各种各样的问题的解决方案进行建模，无论是有监督的还是无监督的。随着它们的大小和表达能力的增加，模型的变化也随之增加，产生了一个几乎普遍存在的过度拟合问题。尽管通过各种模型正则化方法得到缓解，但通常的解决方法是寻找大量的训练数据(不一定容易获得)，这些数据足够接近我们希望测试的领域的数据分布。相比之下，逻辑编程方法，如归纳逻辑编程，提供了一个数据效率极高的过程，通过该过程可以训练模型在符号域上进行推理。然而，这些方法无法处理神经网络可以应用的各种领域:它们对输入中的噪声或错误标记不鲁棒，并且可能更重要的是，不能应用于数据不明确的非符号领域，例如对原始像素的操作。在本文中，我们提出了一个可微分归纳逻辑框架，它不仅可以解决传统ILP系统适合的任务，而且对ILP不能处理的训练数据中的噪声和误差表现出鲁棒性。此外，由于它是通过反向传播针对似然性目标进行训练的，因此可以通过将它与模糊数据上的神经网络连接来进行杂交，以便应用于ILP不能解决的领域，同时提供神经网络自身无法实现的数据效率和泛化。

1.介绍

归纳逻辑程序设计(ILP)是从例子中构造逻辑程序的技术的集合。给定一组正例子和一组负例子，ILP系统构造一个逻辑程序，它包含所有的正例子，但不包含任何负例子。从机器学习的角度来看，ILP系统可以被解释为在示例上实现基于规则的二元分类器，根据提供给系统的公理以及系统在训练期间推断的新规则，将每个示例映射到对其真或假的评估。

ILP有许多吸引人的特性。首先，被学习的程序是一个显式的符号结构，可以被检查、理解和验证。第二，ILP系统往往具有令人印象深刻的数据效率，能够很好地从少数几个例子中进行归纳。这种数据效率的原因是，ILP对可以学习的程序种类施加了强烈的语言偏见:一个简短的通用程序将比一个包含大量特殊情况的特别规则的程序更受欢迎，这些规则恰好涵盖了训练数据。第三，ILP系统支持持续学习和迁移学习。在一次培训中学习的程序是声明性的并且没有副作用，可以在下一次培训之前复制并粘贴到知识库中，这提供了一种存储所学知识的经济方式。

传统的ILP系统的主要缺点是它们不能处理有噪声的、错误的或模糊的数据。如果正例或反例包含任何错误标记的数据，这些系统将无法学习预期的规则。De Raedt和Kersting (2008)深入讨论了这个问题，强调了构建能够将关系学习应用于不确定数据的系统的重要性。

神经网络的一个关键优势是它们对噪声和模糊性具有鲁棒性。克服传统ILP系统脆弱性的一种方法是在一个健壮的连接主义框架中重新实现它们。加塞兹、贝索尔德、德·雷德特、F·奥尔迪亚克、希茨勒、伊卡尔德、Ku·赫恩伯格、兰姆、米库拉宁和西尔弗(2015)强烈主张将强健的连接主义学习与符号关系学习相结合的重要性。

最近，深度学习社区出现了一种不同的程序归纳方法(Graves，Wayne和Danihelka，2014；Reed & de Freitas，2015；Neelakan- tan，Le & Sutskever，2015年；凯泽，2015；Andrychowicz & Kurach，2016；格雷夫斯、韦恩、雷诺兹、哈雷、达尼埃尔卡、格拉布斯卡-巴温斯卡、科尔梅纳雷霍、格雷芬斯特特、拉马尔霍、阿加皮乌等人，2016)。这些基于神经网络的系统不构建程序的显式符号表示。相反，他们学习一个产生预期结果的隐含过程(分布在网的权重中)。这些方法采用相对低级的计算模型2(比ILP中使用的Horn子句更“接近金属”的模型)，并产生该低级模型的可区分实现。学习到的隐含过程是在计算的低级模型内操作的一种方式(在不同的图灵机的情况下，通过移动磁头、读和写；在可微分下推自动机的情况下通过推和弹出)。

这种差异化的程序归纳方法有两个吸引人的特点。首先，这些系统对噪声具有鲁棒性。与ILP不同，神经系统将容忍一些坏的(错误标记的)数据。第二，可以向神经程序归纳系统提供模糊或不明确的数据(例如，来自照相机)。与传统的ILP系统(必须输入清晰的符号输入)不同，微分归纳系统可以从原始的、未经预处理的像素输入开始。

然而，与ILP相比，程序归纳的神经方法有两个缺点。首先，由神经网络学习的隐含过程是不可检查的或人类可读的。众所周知，很难理解它学到了什么，或者它在训练数据之外概括了什么。第二，当测试数据明显大于训练数据时，这些系统的性能急剧下降:如果我们训练神经系统添加长度为10的数字，当测试长度为20的数字时，它们也可能成功。但如果我们在长度为100的数字上测试它们，性能会下降(Kaiser，2015；Reed & de Freitas，2015)。通用神经架构作为通用函数逼近器，产生具有高方差的解。过度适应的危险始终存在。

本文提出了一个系统，解决了连接主义系统和ILP系统的局限性，并试图结合两者的优势。可微分归纳逻辑编程(∂ILP)是ILP在端到端可微分架构中的再实现。它试图将ILP的优势与基于神经网络的系统的优势结合起来:一个数据高效的归纳系统，可以学习显式的人类可读的符号规则，对有噪声和模糊的数据具有鲁棒性，并且在应用于看不见的测试数据时不会恶化。这个系统的中心部分是通过在限定从句上向前链接的演绎的可微分实现。我们将ILP任务重新解释为一个二进制分类问题，并且我们在训练期间最小化关于地面真实布尔标签的交叉熵损失。

我们的∂ilp系统能够解决需要递归和谓词发明的中等复杂的任务。例如，它能够使用多个发明的谓词来学习“Fizz-Buzz”(参见5.3.3节)。与Grus4描述的MLP不同，我们的学习程序可以对训练样本范围之外的数据进行强大的泛化测试。

与符号ILP系统不同，∂ilp对错误标记的数据具有鲁棒性。它能够在高达20%的错误标记训练数据的情况下实现合理的性能(参见第5.4节)。与符号ILP系统不同，∂ilp还能够处理不明确或模糊的数据。我们通过将∂ilp连接到一个经过MNIST数字训练的卷积网络来测试它，它仍然能够有效地学习(见5.5节)。

我们的∂ilp系统的主要限制是它需要大量的内存资源。这限制了测试我们系统的基准问题的范围5。我们将在第5.3节和第5.3.4节的介绍中进一步讨论这一点，并在附录e中提供分析。

论文的结构如下。在第2节中，我们首先给出逻辑编程作为一个领域的概述，以及被称为归纳逻辑编程的学习方法的集合。在第3节中，我们将ILP下的学习重新描述为一个可满足性问题，并使用该问题的形式化作为基础，在第4节中介绍ILP的一种可微分形式，其中规则的连续表示通过针对似然目标的反向传播来学习。在第5节中，我们针对各种标准ILP任务来评估我们的系统，通过评估其在数据中存在一致错误的条件下的性能来测量其对噪声的鲁棒性，最后将其与逻辑程序在模糊数据(如原始像素)上学习的任务中的神经网络基线进行比较。我们通过回顾和对比第6节中的相关工作来完成本文，然后给出我们关于这里提出的框架及其实证验证的结论。