学界丨从科学把妹说起,为何博弈论能成为深度学习的未来?

AI 科技评论按:作者Carlos Perez是一名软件开发者,著有《深度学习的设计模型》一书。他在这篇文章中提及了我们熟悉的概念——博弈论,并认为这一概念将会更广泛地应用于机器学习中。

在电影《美丽心灵》中,“如何科学把妹”让我们得以直观地理解约翰·纳什的博弈论,但实际上不完全信息博弈论中的近似纳什均衡也已经出现在一些机器学习的论文中。其中原因何在?雷锋网为读者们编译了他在KDnuggets上的文章,一起来看看吧。

如果你一直是我文章的读者,那么你应该知道,对于许多深度学习的资深从业者来说,新的架构设计将包含越来越多的博弈论的要素。

这种做法将具有直观的意义。原因有二。其一,深度学习系统最终需要解决知识不完备的情况。实际上我们已经在AlphaGo中领教到了。AlphaGo使用部分的知识就可以在战术以及战略上打败人类当中最优秀的围棋选手。

第二个直观的意义是深度学习系统不会像在现在一样保留单一的完整性,而是将包含多种协调(或者说竞争)机制。这种情形已经应用于对抗网络中了。对抗网络包含竞争神经网络,既是攻方,也是防守方。前者会生成假图像,后者将会鉴别图像的真伪。该系统十分有意思,它并不需要一个具有封闭形式的损失函数。实际上,一些系统拥有发现自身损失函数的惊奇能力。对抗神经网络的劣势之一是很难训练。对抗学习需要在非合作博弈中包含纳什均衡。在最近的无监督学习论文中,Yann Lecun将对抗网络称为“最近二十年以来,机器学习领域中最有意思的想法”,这一点雷锋网此前也有提及。

我们仍然处于在深度学习领域中应用博弈论的早期阶段,但是我要指出的是一些有关机器学习的论文,已经有了博弈论的影子。David Balduzzi设计了一个深度学习的框架,该框架使用了博弈论的方法。他在论文《深度学习的语义、表达以及语法》中写道:

太过宽泛,是这种方法的薄弱之处。......不过,通过将简单函数的组合看作是深度学习架构的基本特征,倒有可能创造出一种非凸游戏。通过分布式通信协议与语法将这种组合进行形式化。

这种方法非常好,适用于解决我们的疑惑。他使用了几张图(是关于对抗神经网络的图)来表明他的方法的优点:

要是所有的教科书都使用这种方法,那该多好!

David Silver与Johannes Heinrich曾共同发表过一篇名为《在非完备信息博弈论当中深度增强学习的表现》的论文,在该论文中,他们写到:

NFSP是第一种端到端的深度增强学习方法,我们可以将这种方法应用于不完全信息博弈论中的近似纳什均衡。NFSP与以前的博弈论理论方法不同,在没有先验知识的情况下,NSPF是动态可伸缩的。此外,NSPF也是第一个可以在自我训练中有效收敛到近似纳什均衡的深度增强学习方法。

Jason Hartford等人使用深度学习来预测人的行为。他们在《深度学习在预测人的策略行为当中的应用》中写到:

通过结合认知偏差以及认知心理学中自我审视的局限性,行为博弈论理论已经发展到拥有大量的模型来在战略环境中预测人的行为。

有三个玩家,他们将三种不同的博弈论方法应用于深度学习当中:

(1)作为描述与分析新的深度学习架构的手段; (2)作为构建学习策略的方式; (3)用来预测人类玩家行为的方法。

最后一种方法令人毛骨悚然。

数学给予了我们抽象,并帮助我们来理解复杂的系统。然而,任何一种形式的抽象都有它的局限性。因为一些细节被忽略掉了。我们通过使用几何、力学以及逻辑来勾勒出这些复杂的系统的工作原理。这些系统的分类器来源于其他的分类器。我们从中获益匪浅。他们都是自相似的系统,他们都属于同一个集体。在该集体中,这些系统相互作用,相互影响。更进一步来讲,我们使用这些系统来预测我们的未来。这些预测需要使用不完备与不完善的数据。因此我们需要一个数学框架来研究众多交互部分的行为,而这些交互的部分拥有不同的信息集。

经典的机器学习理论认为问题可以转变成优化问题。这就需要算法来寻找最佳的解决方案。然而我们希望我们使用机器学习方法训练出的模型,没有过度拟合数据,并且能够很好地处理从未遇到过的数据。我们希望我们的模型能够对未知作出预测。这种要求(也被称作泛化)和传统的优化问题有很大的不同。这种要求也不同于经典动力学。经典动力学要求获得尽可能多的数据。这就是为什么在将深度学习应用到工程的时候,需要对优化问题附加约束。在一些文章中,这些限制被称为“先验”(我并不喜欢这种称谓),或者说优化问题中的正则化。

正则化的来源是什么?我们该如何选择一个好的正则化?我们该如何合理地处理信息?通过使用博弈论的方式,我们将获得答案。这也就是博弈论会在机器学习领域中变得重要的原因。

正则化有时会涉及到结构风险最小化。换句话说,我们使用类似于降低各方风险的策略来构建处理正则化的机制。最终我们得到了完整的结论。博弈论是用来研究理性决策者之间关系的数学模型。决策者之间的关系包括竞争与合作。为了理解学习机,我们最终使用数学来研究智慧生物之间的交互。

via KDnuggets,AI 科技评论编译。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-01-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏ATYUN订阅号

【学术】强化学习系列(上):关于强化学习,你需要知道的重要知识点

强化学习是一个非常有用的工具,可以在任何机器学习工具包中使用。为了能使你能够尽可能快地实现最新的模型,本系列的两篇文章是作为基础知识来设计的。这两篇文章中将分享...

3468
来自专栏龙行天下CSIEM

科学瞎想系列之三 傅里叶变换的哲学意义

从纯数学角度讲,傅里叶变换是一种复杂的积分变换,大多不是数学专业的人恐怕早就忘了原函数、像函数、狄里赫莱条件、离散、连续等等那些天书。但大多搞理工专业的人...

2768
来自专栏机器学习算法与Python学习

CVPR 2018,盘点我心中的创意 TOP10

2018 计算机视觉与模式识别会议 (CVPR) 上周在美国盐湖城举行,它是世界计算机视觉领域的顶级会议。今年,CVPR 收到了主要会议论文投稿 3300 份,...

610
来自专栏ATYUN订阅号

【学术】欺骗图像识别技术,只需改变一个像素即可将狗变成汽车

日本九州大学的一个团队开发了一种欺骗图像识别技术的新方法。对许多研究人员来说,一般的方法是给图像添加一些功能,这些图像会错误地触发神经网络,并让它识别出它所看到...

3597
来自专栏量子位

详解个性化推荐五大最常用算法

允中 若朴 编译自 Stats&Bots 量子位 出品 | 公众号 QbitAI ? 推荐系统,是当今互联网背后的无名英雄。 我们在某宝首页看见的商品,某条上读...

3335
来自专栏AI科技大本营的专栏

盘点深度学习一年来在文本、语音和视觉等方向的进展,看强化学习如何无往而不利

【AI科技大本营导读】AlphaZero自学成才,机器人Atlas苦练后空翻……2017年,人工智能所取得的新进展真是让人应接不暇。而所有的这些进展,都离不开深...

3295
来自专栏测试开发架构之路

艾宾浩斯记忆曲线

一、 复习点的确定(根据艾宾浩斯记忆曲线制定): 1. 第一个记忆周期:5分钟 2. 第二个记忆周期:30分钟 3. 第三个记忆周期:12小时 4. 第四个记忆...

33911
来自专栏大数据挖掘DT机器学习

拍拍贷风控预测模型

拍拍贷“魔镜风控系统”从平均400个数据维度评估用户当前的信用状态,给每个借款人打出当前状态的信用分,在此基础上,再结合新发标的信息,打出对于每个标的6个...

4177
来自专栏AI研习社

Kaggle 冰山图像分类大赛近日落幕,看冠军团队方案有何亮点

AI 研习社按,在日前结束的 Kaggle「Statoil/C-CORE Iceberg Classifier Challenge」(冰山图像分类大赛)中,由 ...

902
来自专栏AI研习社

CV 届的金鸡百花奖:盘点我心中的 CVPR 2018 创意 TOP10

2018 计算机视觉与模式识别会议 (CVPR) 上周在美国盐湖城举行,它是世界计算机视觉领域的顶级会议。今年,CVPR 收到了主要会议论文投稿 3300 份,...

973

扫描关注云+社区