首页
学习
活动
专区
工具
TVP
发布

CreateAMind

专栏作者
952
文章
592897
阅读量
55
订阅数
情绪的机制分析
Deeply felt affect- the emergence of valence in deep active inference
用户1908973
2024-03-07
730
系统比较RL与AIF
主动推理是一种建模生物和人工智能代理行为的概率框架,源于最小化自由能的原则。近年来,该框架已成功应用于多种旨在最大化奖励的情境中,提供了与替代方法相媲美甚至有时更好的性能。在本文中,我们通过展示主动推理代理如何以及何时执行最大化奖励的最优操作,澄清了奖励最大化与主动推理之间的联系。确切地说,我们展示了在何种条件下主动推理产生贝尔曼方程的最优解,该方程是模型驱动的强化学习和控制的几种方法的基础。在部分观察到的马尔可夫决策过程中,标准的主动推理方案可以产生规划时域为1时的贝尔曼最优操作,但不能超越。相反,最近开发的递归主动推理方案(精细推理)可以在任何有限的时间范围内产生贝尔曼最优操作。我们通过讨论主动推理与强化学习之间更广泛的关系,补充了这一分析。
用户1908973
2024-01-17
910
一个框架整合大脑理论 4 认知范式转变后的正宗AGI理论及大量理论的比较
10章: Active Inference as a Unified Theory of Sentient Behavior
用户1908973
2023-12-28
2270
为AI配备目标;强化学习是最低的智能行为,昆虫和哺乳动物在第几层?
理论生物学的最新进展表明,基础认知和感知行为是体外细胞培养和神经元网络的自然属性,respectively.这种神经元网络在大脑中自发地学习结构化行为在没有奖励或加强情况下。在这篇文章中,我们通过自由能原理的透镜来描述这种self-organisation,即不证自明的。我们要做到这一点,首先要基于主动推理的设置,definitions of reactive and sentient behaviour,模拟他们的行动的consequences。然后我们引入了一种对有意行为的正式解释,它将代理描述为由潜在状态空间中的首选端点或目标驱动。然后,我们研究这些形式的(反应性的、有感觉的和有意的(reactive, sentient, and intentional)行为模拟。首先,我们模拟上述体外实验,其中神经元培养通过实现嵌套的、自由能的最小化过程,自发地学习玩乒乓。然后模拟被用来解构随之而来的预测行为——区分仅仅是反应性的、有感觉的和有意的行为,后者以归纳计划的形式出现。这使用简单的机器学习基准进一步研究区别(导航一个网格世界和汉诺塔问题),这显示了如何快速有效地适应性行为是在主动推理的归纳形式下出现的。
用户1908973
2023-12-20
1300
实时精准控制机械臂AGIagent
AGI agent 通过贝叶斯推理自由能目标函数,进行实时推理并完美解决pendulum任务环境;追踪目标能力极强
用户1908973
2023-11-30
1160
27次训练即可解决小车双摆的强化学习算法
动力系统的有效控制设计传统上依赖于高水平的系统理解,通常用精确的物理模型来表达。与此相反,强化学习采用数据驱动的方法,通过与底层系统交互来构建最优控制策略。为了尽可能降低真实世界系统的磨损,学习过程应该很短。在我们的研究中,我们使用最先进的强化学习方法PILCO设计了一种反馈控制策略,用于小车上双摆的摆动,在测试台上的测试迭代非常少。PILCO代表“学习控制的概率推理”,学习只需要很少的专家知识。为了实现小车上的双摆摆动到其上不稳定平衡位置,我们在PILCO中引入了额外的状态约束,从而可以考虑有限的小车距离。由于这些措施,我们第一次能够在真正的测试台上学习摆起,并且仅用了27次学习迭代。
用户1908973
2023-11-07
1990
超越强化学习:生命启发的AI
构建自主的(即基于个人需求选择目标)和自适应的(即在不断变化的环境中生存)智能 体一直是人工智能(al)的圣杯。一个活的有机体是这种代理的一个主要例子,提供了 关于适应性自主的重要课程。在这里,我们把重点放在内感受上,这是一个监控体 内环境使其保持在一定范围内的过程,它保证了生物体的生存。为了开发具有内视 知觉的人工智能,我们需要从外部环境中分解代表内部环境的状态变量,并采用内 部环境状态的受生命启发的数学特性。这篇论文提供了一个新的视角,通过将控制 论的遗产与生命理论、强化学习和神经科学的最新进展相结合,内视知觉如何帮助 构建自主和适应的主体。
用户1908973
2023-11-01
2510
可解释的抽象行为logicRL:逻辑推理+强化学习 代码debug记录
用户1908973
2023-09-01
990
用概率推理解决强化学习- pyro colab代码
2018:Reinforcement Learning and Control as Probabilistic Inference: Tutorial and Review
用户1908973
2022-11-22
3080
智能生命的第一原理
我们从统计物理学的第一原则和有机体必须维持其存在的核心要求开始——也就是说,避免令人惊讶的状态——然后引入自由能的最小化作为这个问题的计算上易处理的解决方案。本章揭示了近似贝叶斯推理中变分自由能的最小化和模型证据(或自证)的最大化之间的形式等价,揭示了自由能和自适应系统的贝叶斯观点之间的联系。
用户1908973
2022-04-15
5080
解读深度强化学习基石论文:函数近似的策略梯度方法
导读:这篇是1999 年Richard Sutton 在强化学习领域中的经典论文,论文证明了策略梯度定理和在用函数近似 Q 值时策略梯度定理依然成立,本论文奠定了后续以深度强化学习策略梯度方法的基石。理解熟悉本论文对 Policy Gradient,Actor Critic 方法有很好的指导意义。
用户1908973
2020-12-29
9860
通过代码学Sutton强化学习第四章动态规划
经典教材Reinforcement Learning: An Introduction 第二版由强化领域权威Richard S. Sutton 和 Andrew G. Barto 完成编写,内容深入浅出,非常适合初学者。本篇详细讲解第四章动态规划算法,我们会通过Grid World示例来结合强化学习核心概念,用python代码实现在OpenAI Gym的模拟环境中第四章基于动态规划的算法:策略评价(Policy Evaluation)、策略提升(Policy Improvment)、策略迭代(Policy Iteration)、值迭代(Value Iteration)和异步迭代方法(Asynchronous DP)。
用户1908973
2020-10-22
1.2K0
Soft Reinforcement Learning 介绍
Soft Reinforcement Learning (SRL) 是强化学习的一个新的范式,脱胎于最大熵强化学习 (Maximum Entropy Reinforcement Learning)。相比之下,我称普通的强化学习为 Hard Reinforcement Learning (HRL)。
用户1908973
2020-09-28
8400
Qzero算法介绍
1. AlphaZero算法: 算法的核心是把MCTS算法与深度强化学习(DRL)结合起来(使用MCTS算法作为RL的policy improvement机制)。为了达到这个目的做了两点改动:
用户1908973
2020-09-28
1.3K1
SDDPG = SAC1
在上文指出:“基于policy optimization的强化学习算法的数学基础都是policy gradient 定理(PGT),比如PG, A2C, A3C, TRPO, PPO, IMPALA等等。现在我们有了soft policy gradient 定理,对应地可以演化出一系列新算法,比如SPG, SA2C, SA3C, STRPO, SPPO, SIMPALA等等。”
用户1908973
2020-08-13
5680
SPG定理与算法介绍
在传统的policy optimization强化学习中,通常会手加一个动作熵作为探索项,然后对该项的权重因子调参以达到增加探索的目的。然而“In practice, moreover, policy gradient methods typically employ carefully tuned entropy regularization in order to prevent policy collapse.”,更严重的是动作熵的引入破坏了PG(policy gradient )理论的自洽性,而对于一个理论来说自洽性重于泰山。
用户1908973
2020-08-04
1.3K0
Meet CreateAMind Cuju ( 谷歌足球 SOTA )
谷歌足球(Google Research Football)是Google Brain 开发的一个足球仿真策略游戏。
用户1908973
2020-05-09
8150
SQN算法介绍
SQN是Soft Q Network的缩写,是基于Q-value的强化学习算法,"Soft"指代的是熵正规化( entropy regularization )。SQN算法在2018年就写下了,但是由于我比较懒,一直没有写论文介绍,在此简略介绍。伪代码如下:
用户1908973
2020-05-07
1.8K0
Unsupervised learning and generative models
来自deepmind大神的演讲,https://www.youtube.com/watch?v=H4VGSYGvJiA,首先是五种对于数据分布的操作,非常有借鉴意义,总结的很棒,高屋建瓴。比如Iden
用户1908973
2019-10-16
3350
类似 深度学习自动特征 的 强化学习自动辅助任务学表征
强化学习的自动任务:表示学习是和适应环境的任务相关的;这篇论文给出了任务相关的表示学习的理论证明。
用户1908973
2019-09-17
4130
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战,赢鹅厂证书、公仔好礼!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档