前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >强化学习缺陷:如何用贝叶斯从错误中学习-安全及效率

强化学习缺陷:如何用贝叶斯从错误中学习-安全及效率

作者头像
CreateAMind
发布2022-04-15 12:53:33
4710
发布2022-04-15 12:53:33
举报
文章被收录于专栏:CreateAMind

Learning from What’s Right and Learning from What’s Wrong

https://doi.org/10.48550/arXiv.2112.14045 :内容摘要

人们可以通过强化好的方面或避开不好的方面来学习,

学习是当前人工智能革命的核心。在数学环境中,学习包括针对某个目标(表示为“目标”函数)调整/更新参数。同样,在这样的背景下,人们可以区分这种适应是通过增加正确的东西还是减少错误的东西来引导的。从正确中学习可以通过增加积极的评价来完成,如奖励、匹配、可能性或有效性。从错误中学习是通过减少负面评价来实现的,比如错误、损失、惩罚、分歧或距离。这种从正确/错误中学习的区别并不新鲜,也可以用奖励/基于错误的学习来表达。

(https://www.princeton.edu/~yael/Publications/DayanNiv2008.pdf Reinforcement learning: The Good, The Bad and The Ugly 提到:

厌恶性预测可能比欲望性预测更复杂,因为它们有多方面的影响,有不同形式的上下文信息(如防御距离;[91])影响撤退和冻结与接近和战斗之间的选择。像欲望选择行为一样,这些行为效应中的一些需要强有力的行动,这一点我们在上文中根据多巴胺的紧张水平进行了讨论[70,71]。此外,厌恶性预测可以导致主动回避,从而带来与实现安全相关的欲望性预测。后一种机制与条件回避反应有关。)

在概率学习中,有两种不同的更新方法,即遵循 Pearl[29](和 贝 叶 斯)或 跟 随 杰 弗 里[23], 如需比较,请参阅[3, 27, 7, 19].这两种方法可以给出完全不同的结果,但是对于何时使用哪种方法却知之甚少。举例来说,它是由[7] 杰弗里法则最适合在“惊喜”之后进行修正,但它对惊喜是什么仍然模糊不清。在概念层面上,本文的主要贡献在于表明珀尔的方法是从正确中学习,而杰弗里的方法是从错误中学习。这里用于正确的目标函数是有效性(即期望值),用于错误的目标函数是发散性(以 Kullback-Leibler 形式)。因此,这将表明,珀尔的更新规则增加有效性和杰弗里的规则减少分歧。后一个散度减小的结果是本文的主要数学贡献。它的证明使用了相当复杂的数学。

有趣的是,基于通道的设置符合作为预测编码理论(也称为预测处理或自由能原理)基础的神经科学设置。这一理论可以追溯到 19 世纪的赫尔曼·赫尔姆霍茨,并首次用现代术语进行了描述[30] 并且在许多其他最近的来源中,例如[10, 15, 5]. 天真地,人类通过从外部世界吸收感官信息和建立或多或少准确的内部图像来学习。或者,思维投射、评估和更新:预测编码理论基本上将人类思维描述为贝叶斯预测引擎,将预测与观察进行比较,导致内部适应。引用弗里斯顿的话[10]: “贝叶斯大脑假说使用贝叶斯概率理论将感知表述为基于内部或生成模型的建设性过程。[.。。]根据这种观点,大脑是一台推理机器,它主动预测和解释自己的感觉。这一假设的核心是一个可以产生预测的概率模型,根据该模型对感官样本进行测试,以更新对其原因的信念。我们将此转化为上面的设置:头脑的内部状态可能(部分地)由 X 上的分布 σ 来表示,如前一段所用。

通道 c 是生成模型的一部分,生成预测 c 》σ,作为外部世界 Y 上的分布。面对(不匹配的)感官信息(关于 Y),大脑更新其内部状态 σ(关于 X)。这就是在预测模型中学习是如何发生的。本文使用了一个这种类型的运行示例。

一个有趣的问题是:这种学习/更新是根据珀尔还是杰弗里发生的?

更抽象地说,大脑是从正确的事物中学习还是从错误的事物中学习?这个问题的(经验)答案远远超出了本文的范围,但预测编码理论表明,我们的大脑使用杰弗里规则,因为他们试图最小化预测误差,见[10].这方面的另一个论点是,连续的 Pearl 更新可以交换,但连续的 Jeffrey 更新不能,请参见[19] 详情请见。众所周知,人类的大脑对处理信息的顺序非常敏感。本文的主要结果(定理 3) 加强了预测编码理论的数学基础:它将从点数据的学习扩展到从分布的学习,并表明在这种从分布的学习中,表示为 Kullback-Leibler 发散的预测误差减少了。

(人类的大脑对处理信息顺序非常敏感的一个例子,in https://doi.org/10.48550/arXiv.1807.05609

爱丽丝怀孕了;鲍勃拜访爱丽丝

鲍勃拜访爱丽丝;爱丽丝怀孕了。

本节的其余部分包含一些一般性的观察和问题,供进一步研究。

1. 从数学的角度来看,Pearl 的更新规则是最良好的。特别是,建设性规则的迭代应用互换,见命题 4.3 (3),而杰弗里规则的多次使用不互换。这与杰弗里的方法涉及突然调整的想法是一致的。

2. Pearl 规则经典地使用了贝叶斯网络,如图 1 右侧的附加二进制节点所示。在这种网络的推理中,一个人通过在网络中传播证据来影响证据,然后边缘化。

3. 在某些(其他)情况下,人们可能明确希望有一个更新的替代规则。例如, (Valtorta 等人,2002 年)描述了一个多智能体系统的模型,每个智能体都有自己的知识,通过局部贝叶斯网络表示。它明确要求:“整合共享变量上的其他代理的观点的机制是用通信代理的信念来替换代理对该变量的当前信念。”这种替换是通过杰弗里法则获得的。

4. 人们可以试着想象杰弗里/珀尔定律的实验验证。频率主义者的方法包括通过计数计算比率,似乎支持 Jeffrey 的更新形式。毕竟,Jeffrey 的规则包括对单个点的观测值进行凸和更新。

5. 如 果 概 率 更 新 被 视 为 认 知 启 动 的 数 学 模 型 ( 或 近 似 ) , 参 见 例 如(Griffiths,Kemp,& Tenenbaum,2008),那么 Jeffrey 规则的迭代应用的非交换性可以被视为一件好事。事实上,人类的头脑对接受证据的顺序很敏感,也就是说,它被启动的顺序。启动的这种“顺序效应”可以用简单的例子来说明例子。参考上面的例子

论文例子6.3显示两种方法结果差异是0.69vs0.02 )

未出版新书的6.7节对此进行了详细讲解

新概率书 Structured Probabilistic Reasoning

相关内容简单截图如下:

相关参考:

新概率书 Structured Probabilistic Reasoning

700篇参考文献的模拟智能论文

用数学范畴定义生命的尝试

神经网络的一个底层结构缺陷

how we learn 第二章 人脑比机器强在哪?(长文)

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-03-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档