首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    DeepMind VS Meta:实现纳什均衡理性最优解,还是多人非零和博弈算法更强大?

    大数据文摘转载自AI科技大本营 编译 & 整理:杨阳 记得豆瓣高分电影《美丽心灵》中的约翰·纳什吗? 作为获得诺贝尔经济学奖的数学家,纳什在博弈论、微分几何学,以及偏微分方程等各个领域都作出卓越贡献。为表彰他在非合作博弈理论中对均衡(纳什均衡)的开创性分析,1994年瑞典中央银行授予纳什诺贝尔经济学奖。 纳什均衡在社科中的应用可谓成功,而在科技领域中,也经常引用博弈论的逻辑来进行技术实现,比如,通过密码学和博弈论的结合实现大数据安全。当下,这一逻辑也开始应用在AI的算法上。 DeepNash——Deep

    01

    区块链的本质-纳什均衡下的共识系统

    作者为德勤智慧未来学院总监 高挺 区块链的本质是什么?笔者通过观察发现,网上的一些普及文章甚至是业内人士对区块链的理解都存在许多误区,往往将它具象成“分布式账本”、“智能合约”、“密码学”等具体技术和概念。 本文试图通过一些生活场景,阐述区块链的基本理念以及它的数学模型。 生活中的区块链 区块链并不神秘,它就真真切切地存在于生活中。举个最简单的例子,菜市场是大部分人都去过的场所,只要仔细观察就不难发现:在一个开放、可以自由定价的市场中,对于品质相同的蔬菜在不同的摊位所售卖的价格却往往是相同的。仔细思考一

    07

    每日论文速递 | DeepMind提出在线偏好对齐新方法:IPO-MD

    摘要:确保语言模型的输出与人类偏好相一致,对于保证有用、安全和愉快的用户体验至关重要。因此,近来人们对人类对齐问题进行了广泛研究,并出现了一些方法,如人类反馈强化学习(RLHF)、直接策略优化(DPO)和序列似然校准(SLiC)。在本文中,我们有两方面的贡献。首先,我们展示了最近出现的两种配准方法,即身份策略优化(IPO)和纳什镜像下降(Nash-MD)之间的等价性。其次,我们引入了 IPO 的概括,命名为 IPO-MD,它利用了 Nash-MD 提出的正则化采样方法。这种等价性乍看起来可能令人惊讶,因为 IPO 是一种离线方法,而 Nash-MD 是一种使用偏好模型的在线方法。然而,如果我们考虑 IPO 的在线版本,即两代人都由在线策略采样并由训练有素的偏好模型注释,就可以证明这种等价性。利用这样的数据流优化 IPO 损失,就等同于通过自我博弈找到偏好模型的纳什均衡。基于这种等效性,我们引入了 IPO-MD 算法,该算法与一般的纳什-MD 算法类似,使用混合策略(介于在线策略和参考策略之间)生成数据。我们将在线 IPO 和 IPO-MD 与现有偏好数据损失的不同在线版本(如 DPO 和 SLiC)在总结任务上进行了比较。

    01

    [有意思的数学]极小极大问题与博弈论入门

    为啥要提到这个问题呢,是因为最近一直在做生成对抗网络(GAN)的工作,GAN的灵感来源于博弈论(也叫对策论,竞赛论)中的零和博弈,而原始GAN的优化目标又是一个极小化极大问题,所以我觉得有必要深入了解一下这个问题。另外,我觉得博弈论这个东西挺有意思的,而且挺实用的(坏笑脸),所以就查了一些资料,在这里做个总结,拿出来和大家分享。 博弈的意思其实比较简单,就是两个人,或者多个人之间的竞争,比赛。通过采取不同措施,达到不同的目的,使得自己的利益最大化。古老的故事“田忌赛马”就是博弈思想的体现,我就在想为啥田忌没

    08
    领券