SPARTAN：基于稀疏Transformer的局部因果学习框架

CreateAMind

发布于 2026-03-11 17:02:22

960

文章被收录于专栏：CreateAMindCreateAMind

SPARTAN: A Sparse Transformer Learning Local Causation

SPARTAN：基于稀疏Transformer的局部因果学习框架

https://arxiv.org/pdf/2411.06890

摘要

因果结构在能够灵活适应环境变化的世界模型中起着核心作用。尽管最近的研究强调了发现动态建模中的局部因果图的优势，但本文表明，在复杂场景下准确捕捉这些关系对当前最先进的方法来说仍然具有挑战性。为了解决这一问题，我们提出稀疏是发现此类局部因果结构的关键要素。为此，我们提出了 SPARse TrANsformer World model（SPARTAN），这是一种基于 Transformer 的世界模型，它学习场景中实体之间的局部因果结构。通过对对象分解的 token 之间的注意力模式施加稀疏正则化，SPARTAN 能够识别出稀疏的局部因果模型，并能准确预测未来对象的状态。此外，我们将模型扩展以捕捉具有未知目标的稀疏干预对环境动态的影响。这使得我们的世界模型具有高度可解释性，并能高效地适应环境变化。实证上，我们在基于观测的环境中将 SPARTAN 与当前最先进的面向对象的世界模型进行比较，结果表明我们的模型能够学习到准确的局部因果图，并在面对环境动力学变化时实现显著提升的少样本适应能力，以及在去除无关干扰因素时表现出更强的鲁棒性。

1 引言

近年来，世界模型（World Models）[17] 成为了一个有前途的范式，可以支持多种下游任务，例如视频预测 [58, 19]、物理推理 [6, 9] 和基于模型的强化学习 [18]。尽管在动态建模方面的最新进展已经开发出了能够在日益复杂的环境中进行长期准确预测的世界模型 [38, 46]，但在数据高效的情况下适应环境变化的能力仍然是一个重大挑战。在这方面，因果性与机器学习的结合 [48, 25] 提供了构建能够推理环境变化的结构化模型的前景。特别是因果图模型 [41] 提出了“干预”这一概念——即对模型的一小部分进行局部更改，以解释环境的变化。换句话说，学习因果模型意味着不仅要理解世界的运行方式，还要理解世界如何发生变化。

捕捉这样一个直觉：即使面对环境变化，关于世界的大部分知识仍然可以被复用。稀疏机制变化假设（Sparse Mechanism Shift hypothesis）[39, 49, 3] 表明，自然的数据分布变化可以通过因果机制的稀疏变化来解释。这意味着一个反映世界因果结构的世界模型可以通过仅更新模型的一小部分来高效地适应变化，而模型的大部分保持不变。

在此背景下，一些近期工作探讨了因果结构化世界模型的好处 [例如 33, 20]。这些方法旨在学习一个因果图，以捕捉环境中实体之间如何相互影响。然而，这些因果发现方法学习的是一个固定的图来解释整个数据集，在建模现实物理系统时面临两个主要缺点。首先，学习一个解释所有数据的固定因果图要求该图必须捕获场景中所有可能的交互，而在大多数现实场景中，所有物体都可能彼此交互，这往往导致无信息量的全连接图。其次，在许多应用场景中，如交通运动预测 [52]，场景中的实体数量可能各不相同，而这与标准的结构学习方法不兼容。实际上，大多数物理交互（如物体之间的碰撞）是以时间稀疏的方式发生的事件。因此，我们认为，局部因果模型 [42, 43, 50, 21]，即每个时间步只捕捉相关因果关系的模型，为学习结构化的世界模型提供了一个更自然、更灵活的框架。在这方面，[42] 提出可以通过分析基于 Transformer 的动态模型 [56] 中出现的注意力模式来推断局部因果图。虽然这在简单的状态空间设置中是足够的，但我们通过论证和实验证明，仅靠注意力机制无法在具有复杂动态或高维观测的环境中可靠地发现局部因果关系。为了解决这个问题，我们受到基于优化的因果发现方法 [5] 的启发，这些方法使用稀疏性来诱导因果图，并采用稀疏正则化作为归纳偏置来学习局部因果模型。

在本研究中，我们开发了一种可以应用于标准 Transformer 架构的稀疏正则化方案，使状态依赖和时间依赖的局部因果图得以发现。我们提出了 SPARTAN，这是一个基于 Transformer 的世界模型，其具有可学习的稀疏局部因果图结构。具体而言，SPARTAN 最小化 token 之间局部因果边的期望数量，从而能够发现对象之间准确且可解释的因果关系。我们在具有物理交互的观测环境和交通运动预测数据集 [52] 上评估了我们的模型，结果显示 SPARTAN 比以往方法更能准确识别因果边，从而在对非因果相关的对象进行干预时表现出显著增强的鲁棒性。我们进一步扩展模型以显式表示因果干预。通过这种方式，SPARTAN 能够以少样本方式高效适应环境变化。我们证明，由于所发现的因果结构，我们的模型在不牺牲整体预测准确性的前提下实现了更好的适应效率。

2 背景

我们首先在本节中介绍我们的问题设定，并简要概述因果图模型和因果发现方法。随后，在第 2.3 节中，我们将这些内容与我们的研究动机联系起来，特别强调了因果性在世界模型中的作用。

2.2 因果发现

类似地，我们在学习局部因果模型的设置中应用了稀疏性正则化。如前所述，局部因果图和干预目标是由状态诱导出来的。在这里，我们的目标是在每一个时间步上推断出最稀疏的图，使得下一个观测可以被解释。为此，我们修改了用于局部因果发现的优化目标：与最小化一个固定全局因果图和干预目标的大小不同，我们提出最小化在数据分布下的期望边数和干预目标数量，其中因果边和干预目标在每个时间步动态构建。

在第3节中，我们介绍了我们的主要模型 SPARTAN ，它是基于这一思想的一个具体实现，使用了基于Transformer的架构。

2.3 因果性与世界模型

从概念上讲，我们认为为了实现高效的适应能力，世界模型的结构应该反映出所观察到的动力系统的底层稀疏因果结构，并且这些结构应该是局部的。为了说明我们的观点，考虑交通行为的场景：当前往车辆靠道路另一侧行驶的国家时，交通规则会发生变化。尽管根据道路边界，车辆之间的相对位置可能会改变，但大多数交通行为（例如红灯停车或车道保持）仍然保持不变。一个能够在这种环境下高效适应的世界模型，应仅模块化地更新一小部分已学到的动力学（即车辆相对于道路边界的相对位置），而让其他动力学保持不变。

我们的观点受到“稀疏机制转移假设”（sparse mechanism shift hypothesis）[39, 49, 3] 的启发，该假设指出自然发生的分布变化可以归因于对因果机制的稀疏干预。形式上，这意味着大多数合理的环境变化可以通过改变公式(1)中的一个小的条件分布子集来建模，其余部分保持不变。

此外，在一种特殊情况下，如果干预只作用于那些与模型预测无关的变量，例如移除场景中的不相关物体 [47]，那么一个反映正确因果结构的模型应对这些变化保持鲁棒性。

虽然在某些场景中学习一个全局因果图已经足够，但在动力学模型的背景下，全局图往往接近全连接，因为只要实体在任何时候发生过相互作用，它们就会在图中相连，无论这种交互的可能性有多低。回到交通的例子，一个全局因果图会将场景中的每一辆车都连接起来，因为当它们靠近时，所有车辆之间都可能发生影响。然而，像“车辆A导致车辆B停止”这样的事件，更适合用一个局部因果图来捕捉——图中包含边 A → B，但不包括此时与其他车辆无关的边。我们认为，一个包含大量局部无关边的全局图会阻碍模型充分利用当前问题的稀疏结构。

在接下来的章节中，我们将介绍 SPARTAN 模型。我们通过实验展示，学习一个稀疏、局部的因果世界模型可以提升模型的鲁棒性和适应效率，并证明我们的模型能够准确地发现因果结构。

3 稀疏Transformer世界模型

我们的目标是开发一种世界模型，使其能够将局部因果模型作为状态转移函数进行学习。我们基于 Transformer 架构 [56] 进行构建，因为它在对象分解的世界模型中实现了最先进的预测性能 [61]。此外，其注意力机制为控制对象标记（object tokens）之间的信息流动提供了自然的方式。

尽管已有研究 [42] 认为软注意力（soft attention）已经是一种足够强的归纳偏置，可用于学习局部因果图，并提出了一种对注意力模式进行阈值处理的经验方法，但我们认为这在更复杂的、基于观测的环境中并不足够。我们主张适当的稀疏性正则化和硬注意力（hard attention）在扩展到更复杂环境时起到了关键作用。

3.2 干预

3.3 训练

如第 2.2 节所述，我们的目标是在因果边和干预目标的数量上尽可能稀疏的前提下，拟合数据分布。训练的目标是最小化带有稀疏性正则化的期望模型损失，

其中，θ 表示模型参数，包括 Transformer 的参数和干预标记（intervention tokens）的参数，L 是一个损失函数（例如均方误差 MSE），而 λₜ 表示正则化超参数。需要注意的是，由于在训练过程中干预标记是输入的一部分，因此 |Ā| 表示因果边数量与干预目标数量之和。因此，该目标类似于公式 (3)，只不过我们惩罚的是 |Ā| 的期望值。

在实践中，模型对 λ 的选择非常敏感，因为过高的 λ 会导致模式崩溃（mode collapse），即模型中没有任何连接。由于移除非因果边不应降低预测准确性，我们将问题表述为一个约束优化问题 ：在损失 L 不超过某个阈值 τ 的约束下，最小化 |Ā|，其中 τ 是目标损失。我们将目标损失设为全连接模型所能达到的损失值。通过拉格朗日松弛法（Lagrangian relaxation）[4]，我们可以写出如下的极小极大目标函数：

其中，λ 是拉格朗日乘子（Lagrangian multiplier）。我们通过交替对 θ 和 λ 进行梯度更新来求解该问题。直观上，当误差高于目标值时，λ 会增加误差项的权重。通过将 λ 初始化为一个较大的值，这相当于设置了一个学习调度机制：当误差较高时，模型优先关注预测准确性；只有当误差下降到目标值以下时，才会逐渐剪枝（prune）连接。有关该优化设置及其他训练细节的更多信息，请参见附录 A。

4 实验

我们的实验设计旨在探讨以下几个核心问题：

稀疏性是否能够实现从观测数据中进行局部因果发现？
稀疏模型能否达到与全连接模型相当的预测准确性？
学习干预是否能提升模型的鲁棒性和适应过程中的样本效率？

数据集 ：我们在三个领域上评估我们的模型：Interventional Pong 、CREATE 和 Traffic 。

Interventional Pong 数据集 [36] 是因果表示学习的一个标准基准，它基于带有干预机制的 Pong 游戏。
CREATE [22] 环境是一个二维物理模拟系统，包含诸如梯子、墙壁、大炮和球等相互作用的对象。这与 SlotFormer [61] 所评估的 PHYRE 数据集 [2] 类似，但 CREATE 具有更多类型的交互，从而允许更多的干预设置，更好地展示 SPARTAN 的能力。

对于这两个领域，我们通过提供对象的真实掩码（ground-truth masks），并使用 VAE [27] 对每个对象进行单独编码，从而获得对象槽（object slot）表示。

为了在更现实的任务上评估我们的模型，Traffic 领域 使用的是来自真实世界采集的 Waymo Open Dataset [52]。任务是根据观察到的车辆轨迹（即过去的行驶位置）和地图布局线来预测自车（ego vehicle）的运动。

为了评估所学因果图的准确性，我们针对两个模拟领域与真实因果图进行了对比；而对于 Traffic 领域，则与人工标注的因果图 [47] 进行比较。

在模拟领域中，我们还按照第 3.2 节所述，使用干预数据训练模型。干预被定义为对模拟动力学的更改，例如改变重力强度。详见附录 B。

基线方法（Baselines）

为了验证 SPARTAN 是否能够保持基于 Transformer 的模型在预测任务上所达到的先进性能，我们与一个使用 Transformer 学习动力学的基线模型进行了比较。这个基线可以看作是 SlotFormer [61] 架构的一种实现，区别在于它使用了一步（one-step）上下文长度，并且通过真实对象掩码（ground-truth object masks）来学习对象槽（slots）。

在 Traffic 领域 ，我们采用 MTR [51] 作为基础架构，这是一个专为交通数据设计的、基于 Transformer 的先进模型。

在因果发现方面，[42] 认为仅靠 Transformer 中的软注意力机制就足以作为一种强大的归纳偏置（inductive bias）来学习局部图结构，并提出了一个基于阈值的经验方法（thresholding heuristic）。我们与该方法进行了对比，以展示 SPARTAN 中的稀疏性正则化对于局部因果发现是至关重要的。

为了进一步验证局部因果图更适合建模物理交互这一观点，我们还与一个 全局图基线（Global Graph baseline） 进行了比较。该基线基于 VCD [33] 和 AdaRL [20] 中提出的转移函数，它们使用一个带掩码的多层感知机（MLP）来学习固定的全局因果图。

有关这些基线模型的更多细节，请参见附录 A。

4.1 因果发现

表1中展示了各模型的预测准确性。总体来看，SPARTAN 的预测准确率与 Transformer 基线模型相当，甚至在多数情况下表现更优。

我们进一步研究了是否需要通过稀疏性正则化来进行因果发现，以识别动力学建模中的正确局部因果图。虽然 [42] 表明，在简单的基于状态的环境中，通过对注意力模式进行阈值处理来提取因果图已经足够，但我们在更复杂的环境中表明：为了实现准确的局部因果发现，通过稀疏性正则化学习硬注意力（hard attention）模式是必要的 。

图2 展示了带有局部因果图的预测 rollout 示例。我们可以观察到，SPARTAN 能够在每个时间步可靠地恢复相关的因果边和干预目标。在 Interventional Pong 环境中，我们的方法识别出球拍始终受到球的影响，并随之移动。相比之下，Transformer 基线模型产生了错误的边，例如“得分（Score）→ 球（Ball）”（第1帧）。

在 CREATE 环境中也类似，SPARTAN 准确地发现了对象之间的稀疏交互关系。而在 Traffic 领域 ，图3 显示 SPARTAN 学会关注邻近车道上的车辆，这与人工标注的结果基本一致；而 Transformer 基线模型则关注了许多不相关的车辆。在这种情况下，基于空间接近性的启发式方法也会失效，因为有些前方较远的车辆才是相关的，而一些靠近但位于相反车道的车辆则应被忽略。这进一步突出了学习局部因果图的重要性。

从定量角度，我们使用 结构汉明距离 （Structural Hamming Distance）作为评估指标，衡量所学图结构与真实图之间的差异。这是图结构学习中常用的度量标准。表1 显示，在所有领域中，SPARTAN 相比基线方法都取得了显著更低的距离值，即更接近真实的因果结构。

我们未将 全局图基线 （Global Graph baseline）应用于 Traffic 领域，因为固定图的方法无法灵活扩展以适应不同数量的对象。

4.2 鲁棒性与适应能力

[47] 提出通过在场景中移除非因果实体时观察预测误差的变化来评估模型的鲁棒性。这可以看作是一种特殊的干预，仅作用于那些不是被预测变量原因的变量。具体来说，对于场景中的每个对象，我们移除所有不在真实父节点集合中的对象，并计算预测误差变化的百分比的平均绝对值。在此设定下，一个正确捕捉因果结构的模型应当具有鲁棒性，而一个学习了虚假相关性的模型则会出现较大的波动。

表2 显示，与未进行正则化的 Transformer 相比，SPARTAN 具有显著更高的鲁棒性，这表明 Transformer 过度拟合了实体之间的虚假相关性。在 Interventional Pong 领域中，真实因果图在各个时间步之间基本一致。因此，全局图基线足以捕捉因果结构，从而保持了鲁棒性。然而，在更复杂的 CREATE 领域中，由于局部因果图更依赖于状态，全局图基线的表现明显下降，而 SPARTAN 表现最佳。

在 Traffic 领域 中，我们也实现了一种基于 Transformer 基线的局部注意力变体，即 MTR [51] 所提出的方案，该方法在标记之间的注意力模式上应用了一个空间 K-近邻掩码。虽然这一启发式方法提升了模型表现，但 SPARTAN 在面对非因果变化时仍然表现出显著更高的鲁棒性。

在 [47] 中，作者对交通数据集评估了多种模型架构，报告的误差变化范围在 25% 到 38% 之间，这与我们的发现是一致的。值得注意的是，[47] 的作者还提出了一种旨在提升模型鲁棒性的数据增强策略，使得误差变化降低至 22%，但仍显著高于 SPARTAN 所达到的水平。这进一步突出了我们方法的有效性。

为了研究模型的适应效率，我们在来自干预环境的五条轨迹样本上对模型进行适配。对于 SPARTAN，我们按照第 3.2 节所述方式进行适配。对于全局图基线，我们也采用类似的优化干预标记的方式进行适配。而对于 Transformer 基线，则通过对给定轨迹进行梯度微调来进行适配。

我们还测试了模型在之前未见过的环境中进行适应的能力，即这些环境中的干预并未出现在训练集中。在 Interventional Pong 数据集中，新的环境是通过对训练集中已有的干预进行组合获得的，例如同时干预球和球拍的运动。在 CREATE 环境中，我们改变了场景组成和动力学，即改变场景中对象的数量。在这种情况下，全局图基线无法适用。

我们在图4中展示了结果，可以看出，在这种小样本适应设置下，无论是在已见还是未见环境中，SPARTAN 都持续优于所有基线方法。

5 相关工作

我们的工作受到因果机器学习领域最新进展的启发 [48, 25]。特别是，[45] 提供了理论依据，说明识别一个因果世界模型如何能够带来具有泛化能力的智能体。

我们的工作可以看作是独立因果机制（Independent Causal Mechanism, ICM）原则 [48] 的一种实现方式，该原则认为动力学可以被分解为可被独立干预的因果机制。受 ICM 启发，RIM [16] 通过将状态动力学表示为独立的循环单元来模拟独立因果机制结构。一些研究在此基础上引入机制之间稀疏通信作为归纳偏置，用以建模对象之间的单一 [1] 或二元交互 [34, 15, 14]，将其视为一组独立机制。与这些方法不同，我们采取了一种正交的方法：使用稀疏性正则化来学习动力学模型。具体而言，我们受到 DCDI 框架 [5] 的启发，该框架将因果发现表述为连续优化问题。

为此，VCD [33] 和 AdaRL [20] 也通过稀疏性正则化学习固定的全局因果图来研究适应性。相比之下，我们的模型学习的是依赖于状态的局部因果图，更适合建模物理交互。局部因果模型的概念在 [50, 42, 21] 中也有讨论。

CAI [50] 将智能体对环境影响的局部估计作为一种探索信号。CoDA 系列工作 [42, 43] 表明局部因果图可用于生成反事实数据以进行数据增强。然而，从数据中估计局部因果模型仍然具有挑战性。[42] 提出了一种基于软注意力模式的阈值启发式方法来识别因果边。ELDEN [59] 利用状态之间的偏导数来推断局部因果图，但这需要最小化偏导数的幅值，在复杂的状态环境中计算成本较高。

与我们最接近的工作是 FCDL [21]，它也在学习状态依赖的因果连接量化码本时使用了稀疏性正则化。与这些需要状态观测的方法不同，我们的方法可以在以对象为中心的图像嵌入上运行。此外，由于 Transformer 架构的灵活性，SPARTAN 能够在更现实的场景下进行学习，例如样本之间对象的数量和类型可能发生变化的情况。

我们的工作属于世界模型学习 [例如 17, 18] 的范畴。特别地，我们建立在那些在以对象为中心的表示上学习动力学模型的方法基础之上 [12, 13, 37, 60, 11]。在这个领域中，已有各种架构被提出用于建模对象槽（object slots）之间的交互，如消息传递机制中的图神经网络（GNNs）[28, 53]、循环神经网络（RNN）[55, 24] 以及成对交互 [57]。

SlotFormer [61] 通过对预训练的对象槽 [37] 应用基于 Transformer 的动力学模型 [56, 46, 38]，达到了最先进的性能。我们在这一方法的基础上进行了扩展，通过引入可学习的稀疏掩码并在对象标记上执行因果发现，从而在保持预测准确率的同时提升了模型的可解释性和适应性。

从更广泛的角度来看，在 Transformers 中强制在标记之间建立稀疏连接的做法也在其他领域如自然语言处理（NLP）[8, 7, 35] 和计算机视觉 [63] 中有所探索。这些方法通常依赖于基于领域知识（如句子结构或空间邻近性）预先定义的掩码，并主要用于提高计算效率。而 SPARTAN 可以被视为一种通过在标记之间对信息流动施加正则化，从而从数据中学习这些掩码的方法。

6 结论

我们通过局部因果模型的视角来解决世界模型中的适应性问题。为此，我们提出了 SPARTAN ，一种结构化的世界模型，能够联合进行动力学建模与因果发现。我们在基于图像的数据集上表明，仅依靠注意力机制不足以发现准确的因果关系，因此我们开发了一种新的稀疏性正则化方案，用于学习精确的因果图。结果表明，SPARTAN 在保持相同预测精度的同时，显著提升了可解释性和小样本适应能力，从而超越了当前最先进的方法。

局限性与未来工作

我们的方法还存在一些局限性，这些也为未来的研究提供了方向：

1）我们通过实验证明可以从数据中学习局部因果图。尽管我们借鉴了已有因果发现工作的理论保证 [21]，但我们并未在场景组成可能变化的数据样本下，对局部因果图的可识别性（identifiability）做出理论分析。未来的工作应探索局部图在何种条件下是可以被识别的。

2）在适应过程中，SPARTAN 通过优化所学习的“干预空间”来进行适配。我们已经证明这种方法足以推广到已见干预的组合或对象数量不同的情况。然而，在更极端的情况下，例如测试环境包含全新的行为（如球体瞬间传送），干预空间中可能不存在对应的干预标记，而微调方法在有足够数据的情况下则可能收敛到正确的行为。一个值得探索的方向是考虑程序化生成带有干预的环境，类似于领域随机化（domain randomisation）[40, 54]，以覆盖所有有意义的干预空间。

3）我们的方法依赖于预先解耦的对象表示。一个有趣的扩展方向是研究是否可以通过局部稀疏性诱导出解耦的因果表示 [33, 30]，即通过将编码器与动力学模型联合训练，来自动学习这种结构。

A 模型细节

A.1 超参数

SPARTAN 和 Transformer 基线模型均实现为带有残差连接的堆叠式 Transformer 编码器层。全局图基线（Global Graph baseline）则实现为多层感知机（MLP）的集合，并带有可学习的邻接矩阵掩码。这与 [33, 20] 中的方法类似，不同之处在于我们的基线模型作用于对象嵌入（object embeddings），而非标量状态。每个 MLP 预测一个单独的对象嵌入。

对于每个 MLP，输入的对象标记在输入模型之前会根据一个可学习的邻接矩阵进行掩码处理。同时，对邻接矩阵应用了稀疏性正则化。

SPARTAN 和各基线模型的超参数如表3和表4所示。在模拟数据集上的实验中，所有模型都在单个 GPU 上训练（混合使用 NVIDIA V100 和 RTX 6000），通常在三天内即可完成收敛。

在 Traffic 领域 中，由于每辆车可能有多个可能的行驶轨迹，因此预测需要具备多模态能力。这是我们所考虑数据集中的常见情况。为此，我们采用 MTR [51] 作为基础架构。MTR 包含两个阶段：首先，它在地图线和车辆轨迹的标记之间使用自注意力机制；其次，它通过多个查询（query）进行交叉注意力计算，每个查询代表一种可能的运动模式。然后将每个查询的输出用作高斯混合模型来预测多模态的运动模式。

我们将 SPARTAN 适配到该架构中，方法是将其中所有的注意力层替换为我们本文提出的稀疏化版本。原始工作中还提出了一种局部注意力掩码方案（Local Attn），即每个标记只能关注其基于位置信息的 k-近邻对象。我们在表2中将其称为 “Local Attn”。

在 Traffic 领域中，由于每个场景的数据规模较大（大约有1000个标记），模型在4块GPU上并行训练。基线 MTR 模型的训练时间少于一周，而 SPARTAN 的训练时间在两周以内。

A.2 拉格朗日松弛法（Lagrangian Relaxation）

如第3.3节所述，我们将训练过程表述为一个约束优化问题。具体来说，我们的目标是在误差低于某个目标值的前提下，最小化期望的边数和干预数量，

B 数据集

B.1 干预型乒乓（Interventional Pong）

干预型乒乓环境 基于经典的 Pong 游戏，最初由 [36] 开发，用于研究因果表示学习。在原始工作中，干预方式包括对球和球拍的位置进行随机扰动。我们对其进行了修改，以模拟动力学变化，例如添加重力或改变球撞击球拍的方式，因为这些变化在世界模型学习的背景下更为合适。类似的设置也用于 [20] 中的小样本适应研究。

原始的 Interventional Pong 数据集采用 BSD 3-Clause Clear 许可证 。

该环境中包含 4 个对象：左球拍、右球拍、球和得分 。局部因果边包括：