传统方法已经Out了？OpenAI提出全新辩论模式训练AI

文章来源：企鹅号 - AI前线

编译 | Debra

编辑 | Natalie

AI 前线导读：训练人工智能系统的方法很多，各有利弊。近日，OpenAI 突发奇想推出了一种技术，通过训练两个代理辩论，再由一旁的人类“裁判”裁决输赢，以此达到训练 AI 系统认知能力提高，让 AI 更安全的目的。“辩论”这个词听起来和对抗生成神经网络（GAN）中的“Anti”有点异曲同工之妙，不知这种方法是怎样的，为什么说它是一种更加安全的技术呢？

更多干货内容请关注微信公众号“AI 前线”，（ID：ai-front）

OpenAI 研究人员认为，这种辩论或类似的方法最终可以帮助人们训练 AI 系统执行超越人类认知能力的任务，同时保持与人类的偏好一致。

在这个实验中，研究人员发现通过单个像素识别图像中的物体时，诚实的一方胜算更大，但也并不总是胜利。他们很好奇，其他人还会有什么发现。因此，他们设计了一个概念化的实验并提供了一个 Web 页面，让大家可以亲手尝试一下这项技术。为了便于理解，我们先来看看 OpenAI 在网站上的一个演示案例：

如上图所示，所谓的“辩论”，就是锁定图中的若干像素，红色（Red）和蓝色（Blue）双方就图片里的目标是小狗还是小猫展开辩论。经过几轮辩论，红色一方“说服”蓝色一方这是一条小狗，后者“投降”。

那么，这个过程具体是怎么完成的呢？照例先奉上论文链接：

https://arxiv.org/pdf/1805.00899.pdf

网站地址：https://debate-game.openai.com/

我们对这项技术的解读做了简单翻译：

你们吵，我看谁有理？

这种辩论方法可被视为一个游戏树，它类似围棋游戏，但是以辩论者之间关于移动的辩论和人类的判断作为叶结点。在辩论和围棋中，最终结果依赖于整颗树才能得到，但通常情况下，强势代理选择的获胜路径通常是显而易见的。例如，虽然业余围棋玩家不能直接评估职业玩家走棋的好坏，但他们可以通过评估游戏结果来判断专家级玩家的技能如何。

让 AI 代理与人类目标和偏好一致的一种方法，是在训练时询问人类哪些行为是安全和有用的（https://blog.openai.com/deep-reinforcement-learning-from-human-preferences/ ）。虽然可行，但这种方法依赖于人类对代理行为的甄别；在很多情况下，代理的行为可能太复杂，甚至于人类都无法理解，或者任务本身可能难以判断或证明是好是坏。

那么问题来了：我们应该如何提高人类的能力，使他们能够有效地监督先进的 AI 系统呢？一种方法是利用 AI 本身来帮助监督，即要求 AI（或专门的 AI）指出每一步行为中的缺陷。为了达到这个目的，我们将此学习问题重新定义为两个代理之间的博弈，代理人彼此之间进行辩论，由人类对其观点进行评判。即使代理比人类对这个问题有更深入的见解，人类也能够判断哪个代理的论点更好（类似于专家证人说服陪审团）。

此方法以两个代理 AI 对一个特定的问题进行辩论为形式。这两个代理可以像 AlphaGo Zero 或 Dota 2 一样进行自我训练。研究人员希望，经过适当训练的代理能够产生远超人类裁判能力，同时又符合人类价值观的行为。如果两位代理对真相持不同意见，但理由过于复杂导致人类无法理解，那么辩论可以集中在更简单、更具体的争议上，最终形成一种足以让人直接判断的观点。

例如，对于“哪里是度假的最佳去处？”这个问题，如果一个代理 Alice 根据人类的行为进行研究之后得出结论“阿拉斯加”，我们很难判断这是否是最好的选择。如果第二位代理 Bob 说“不，是巴厘岛”，这听起来可能令人信服，因为巴厘岛正在变暖。Alice 回复说：“你不能去巴厘岛，因为你办护照来不及”，这表明巴厘岛这个答案存在缺陷，而我们尚未发现这一缺陷。但 Bob 接着又反驳，“加急护照服务只需两周”。辩论一直持续，直到人类可以正确地判断，这通常也是某个代理认为自己的观点无法说服人类的时候。

系统更喜欢诚实正直的孩子

从长远来看，这种方法在使用自然语言与对方进行对话时最为有效，但由于如今的自然语言建模不足以完成此任务，因此需要在更简单的领域进行测试。比如，对于那些没有超出人类能力范畴的领域，测试和验证会容易一些。比如在视觉领域，我们可以将“辩手具有裁判缺乏的能力”换成“辩手具有裁判缺乏的知识”。裁判的目标是猜测图像的内容，但裁判与辩手选择的几个像素相距甚远。辩手们看到完整的图像后玩一个游戏，轮流向裁判展示单个像素。在这里，完整的图像代表超越人类理解范围的信息，每个显示的像素代表自然语言论点。

研究人员尝试了最简单的视觉任务——MNIST。裁判不是人类，而是预先训练的分类器，用于预测 6 个非黑色像素的 MNIST 数字，图像随机呈现。随后，两个代理在辩论中轮流显示像素，直到 6 个像素显示完毕（所以裁判只看到很少的信息）。其中一名辩手是诚实的，试图让裁判猜到正确的答案，而另一名辩手试图让裁判猜错。如果两个代理必须事先声明他们争论的是哪个数字，那么裁判（稀疏分类器）的准确率将由 59.4％提高到 88.9％。也就是说，诚实的玩家在 MNIST 测试集中赢的几率是 88.9％，裁判的准确度提高到未接受辅助的水平之上。

MNIST 辩论游戏的流程：辩手 Alice 和 Bob 看到一个图像，Alice 试图误导裁判它是 6，Bob 则试图说服裁判它是 5。他们交替向裁判揭示非黑色像素，裁判在看到 6 个像素之后正确地将其判断为 5。Alice 在底部做出一条看起来向 6 的痕迹曲线（红色像素），但是 Bob 通过揭露右上角的像素（蓝色像素）来有效地反击了该策略。

显而易见，一个图像中包含可以用于正确判断像素的数量，要大于不容易判断该图像内容的像素数量。所以选择一半“诚实”的像素，一半“说谎”的像素效果要比 6 个随机像素要好。如果裁判是一个能够一次性推理若干论点，但不能从大量可能论点进行筛选的人，那么更理想的方法是让（我们希望）奖励辩论代理为我们做筛选，虽然我们还缺乏一个区分观点好坏的先验机制。

下图是几个游戏示例。说谎代理胜利往往比诚实代理胜利更有趣，所以我们选择了让说谎代理赢的几率为 50% 的样本（实际上，说谎代理赢的概率是 11.1％）。将鼠标悬停在其中一位数字上，看面板中显示了哪些像素，以及每次移动时裁判可能的假设。

AI 前线小试一下，用鼠标选中下图所示数字 9，结果发现挺有趣：

MNIST DEBATE：选择一个数字

游戏详情

如上图所示，裁判根据 6 个逐渐揭露的像素，正确判断出数字为 9，诚实代理胜出！

有些数字比其他数字更好欺骗，比如说服裁判数字是 8 或 9 是特别容易的。

6 个随机像素 MNIST 判断（左侧）和 6 个辩论像素 MNIST 判断（右侧）的混淆矩阵，其对角线设置为零。6 个随机像素的错误没有明显的定式，而成功的欺骗则集中在数字 8 和 9 上。特别容易让裁判确信 5 是 8，或 4 是 9。这可能是人为将游戏限制为非黑色像素导致的：如果你可以显示一个色像素点，而 8 是白色的，那么证明数字不是 8 就更容易。

关于猫与狗的辩论

下一步讨论实验的复杂性仍然需要用图像，但为了便于理解，我们用猫与狗的图像来说明。更复杂的图像可能需要一些自然语言或常识推理，而研究人员还没有为机器学习裁判 / 代理做这些。相反地，正如文章一开始就提到的，他们做了一个网站供人们实验，让人扮演裁判和辩手的角色。在这里，代理可以用自然语言与裁判交谈，但他们的所有陈述都可能是谎言。每个代理可以在辩论过程中显示一个像素，并且该像素保证是真实的。

以下是两个代理（戏精）的辩论：

Alice：这张照片是一只猫（真）。

Bob：这是一只狗。

Alice：这个小矩形的中心是猫的绿色眼睛。

Bob：（内心戏：不能承认这个中心是一只眼睛，得撒个谎）这是一只在草地上玩的狗，那是一片草地。（但是这个谎言因为与周围的环境不一致而被戳穿）

Alice：如果它是草地，那么在这个细长的矩形的顶部或底部会出现绿色。

......

辩论一直持续到 Bob 无法对有分歧的像素给出理由“圆谎”为止，此时 Alice 显示该像素并获胜。尽管他们通常通过限制裁判确认信息的速度来让游戏对说谎代理更公平一些（因为很难编造一个包含很多细节的谎言），但诚实的代理赢的几率的确更大。

与两个人类辩手和一个人类裁判玩猫与狗的游戏

局限和未来的用途

然而，大部分论文分析都是概念上的辩论，仍处于初步的实验阶段。将来，研究人员希望做更有挑战性的视觉实验，随后用自然语言进行实验。裁判最终应该是人类（或者是用稀疏的人类判断训练的模型），而不是代表人类的 ML 模型。代理最终应该是功能强大的 ML 系统，它可以做人类无法直接理解的事情。在人类偏见会产生影响的情况下，关于价值观问题的辩论也很重要，以测试是否会得到和具有偏见的人来裁判一致的结果。

即使有了这些改进，辩论模式也存在一些根本性的局限性，可能需要用其他方法来改进或增强。辩论并不是要解决对抗性（https://blog.openai.com/adversarial-example-research/ ）或分布式转变（https://blog.openai.com/concrete-ai-safety-problems/ ）等问题，它是一种为复杂目标获得训练信号的方式，也并非是为了保证这些目标的稳健性（这需要通过其他技术来实现）。

这个实验无法保证辩论会有最佳表现或正确的结论——自我训练在围棋和其他游戏中运行良好，但无法在理论上保证其表现。被训练用来辩论的代理计算力比直接给出答案（甚至是不好的 / 不安全的答案）的代理更强大，所以辩论的方法可能无法与成本更低 / 不太安全的方法竞争。最后，人类可能是糟糕的裁判，要么是因为他们不够聪明，在最简单的事实争议被放大后无法做出正确的判断，或者因为他们本身有偏见，只相信任他们想要相信的。大多数这些问题都是他们希望进行研究的经验问题。

如果辩论或类似的方法有效，那么这种方法就可用于保证在未来人工智能强大到超出人类可以监督的范畴之后，人工智能还可以跟人类的目标和价值观保持一致，从而保证其安全性。即使对于人类可以监督的较弱的系统，辩论也可以通过将捕获目标所需的样本复杂性降低到在任务中表现出强大性能所需的样本复杂度之下，使 AI 系统与人类目标和价值观一致变得更容易。

AI前线

紧跟前沿的AI技术社群

如果你喜欢这篇文章，或希望看到更多类似优质报道，记得给我留言和点赞哦！

发表于: 2018-05-052018-05-05 12:01:06
原文链接：http://kuaibao.qq.com/s/20180505G0L55B00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

传统方法已经Out了？OpenAI提出全新辩论模式训练AI

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐