双方互GAN，不如来试试群体博弈？更快更强更自由 | ICLR 2021

量子位

发布于 2021-06-17 10:09:55

5220

发布于 2021-06-17 10:09:55

文章被收录于专栏：量子位

博雯发自凹非寺量子位报道 | 公众号 QbitAI

AI诞生之初，很长一段时间都停留在个体智能阶段，即面向“识别出图像中的内容”、“听懂一段语音”、“预测蛋白质的3D结构”这类目标单一的任务。

但随着技术发展，AI开始逐渐与其他智能群体产生交互，走向更加复杂的应用场景。

比如在2019年，DeepMind训练的游戏类AI就在星际争霸中超越了99.8％的活跃玩家，达到了最高的 Grandmaster段位。

这是一种以博弈论为机器学习模型的思路。沿着这种思路，DeepMind的几位研究者提出了一种名为EigenGame的理论，重新定义了PCA（主成分分析，Principal Component Analysis）方法。

△已获深度学习顶会ICLR 2021杰出论文奖

“Eigen”与“Game”

“Eigen”意为特征。也是论文题目中所提到的PCA方法的核心概念。

PCA是ML领域里用于数据降维的经典方法。目的是在尽可能不丢失原数据信息的前提下，将高维数据映射（压缩）到低维空间，得到剔除了原有特征冗余信息的新特征。

在目标数据集的数据属性过多，数据量过大的时候，模型训练和计算的性能可能受到很大影响。这时，就需要用到PCA进行数据降维。

而“Game”则意为博弈论*（Game Theory）*，是一种研究理性决策者之间的冲突与合作的数学模型。

纳什均衡（Nash equilibrium）作为博弈论的一个重要概念，指每个参与人在获取信息不完全的情况下，做出了针对其他参与人策略的最优反应，比如经典的囚徒困境。

那么，到底如何才能将博弈论与PCA结合起来呢？

如何将PCA过程重建为一场“博弈”

我们知道，PCA的最优解，是由可以组成方差值最大的投影矩阵，且互相正交的特征向量组成的。

那么，在EigenGame模型中，我们将每一个特征向量假设为一个参与者。

每一个参与者（红点向量，指投影得到的降维数据），都会尽可能地使自己与最大方差方向一致（在同一条直线上），且与高维参与者（蓝点向量，指原数据）保持垂直。

所有参与者构成一个层级结构，其中设置一个只关注最大方差值的1号参与者。其他参与者可以通过计算方差值而受到奖励，也会在与其他参与者距离过近时被惩罚。

这里的参与者并不是主动地去推理最优解的整体性质，而只是对其他参与者策略的最佳响应。

如果所有向量都都使用梯度上升来同步且独立地最大化它们的性能（即每个参与者都发挥最佳状态），它们将实现这场博弈的纳什均衡。

△EigenGame会引导每个参与者沿单位球从空圈平行地走向箭头

我们也就得到了最佳的PCA解决方案。

“博弈”的意义

在机器学习问题的连续方法（continuum approach）上，研究人员通常有两种思路。

一种是使用凸或非凸优化理论，推理解的整体性质。

另一种则受神经科学启发，使用纯粹的连接主义方法和更新规则。但此时往往需要研究复杂的动力学系统，从而使对系统的分析愈发困难。

而EigenGame则是一种介于两者之间的理论。

参与者（特征向量）的优化和更新不限于功能梯度，而仅仅是对其他参与者当前策略的最佳响应。

这样，就能更加自由地设计功能或进行各种属性的优化更新——比如，可以在指定无偏或加速优化的同时，仍然确保Nash属性作用于整体系统之上。

而在博弈过程中，向量与向量之间展现了同步上升的独立特性。这种复杂的多人并行参与模式可以以更快的速度，处理更大规模的数据。

比如允许EigenGame计算分布在数十个TPU上，并在几小时内找到包含数百万个特征，或数十亿行的数百兆字节数据集的主要成分（Component）。

所以，在解决机器学习问题上，这种大型的多智能体系统（multi-agent system）超越了GAN双人参与的零和博弈（two-player, zero-sum），进入了更加复杂丰富的场景应用。

并且，当从多主体角度考虑时，EigenGame中每个发挥最大效能的参与者，都会产生并更新其效能。

神经科学领域的赫布理论（Hebbian Theory），就有类似的更新规则（突触可塑性）。

△突触前神经元向突触后神经元的持续重复的刺激，可导致突触传递效能的增加。

以前，PCA可以作为赫布更新（Hebbian updates）的解决方案，但又不能通过效用函数的梯度来导出。引入博弈论后，赫布学习就有了新的研究视角。

当博弈论遇上机器学习

其实，博弈论的思想一直存在于很多机器学习的探索过程中，不管是经典的 SVM，还是大火的 GAN，这些模型的背后都有博弈论的影子。

最初提出“博弈机器学习”这一概念的刘铁岩博士曾这样说过：

什么才是人工智能？想要解决这个问题，首先需要为「智能」提出一个定义。如果说过去对于个体智能的研究为计算机赋予了智商（IQ）的话，那么社会智能则对应着人工智能的情商（EQ）。

博弈论的引入让AI在过去只与环境交互的基础上，又学会了如何与其他智能体打交道。而当EigenGame这种与多智能群体交互的算法出现时，其意义就不仅是更多更快的数据运算。

按照既非随机，也非理性和对立的人类的行为规律去训练建模，那么AI就有了更多解决问题的新角度，也能在广告竞价、社交媒体、众包管理、交通疏导等多个领域中得到更广泛的应用。

或许，博弈论会是连接机器学习走向人和社会的一个桥梁。

参考链接： [1]https://deepmind.com/blog/article/EigenGame [2]https://openreview.net/forum?id=NzTU59SYbNq

— 完 —

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2021-05-21，如有侵权请联系 cloudcommunity@tencent.com 删除

数据分析

本文分享自量子位微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！