CreateAMind-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

CreateAMind

专栏成员

1002

文章

637749

阅读量

56

订阅数

解决Bongard问题：一种强化学习因果方法,2022

数据强化学习架构解决方案模型

Towards a solution to bongard problems: A causal approach

2024-06-21

740

情绪的机制分析

工作模型系统强化学习代理

Deeply felt affect- the emergence of valence in deep active inference

2024-03-07

1140

系统比较RL与AIF

系统强化学习代理模型算法

主动推理是一种建模生物和人工智能代理行为的概率框架，源于最小化自由能的原则。近年来，该框架已成功应用于多种旨在最大化奖励的情境中，提供了与替代方法相媲美甚至有时更好的性能。在本文中，我们通过展示主动推理代理如何以及何时执行最大化奖励的最优操作，澄清了奖励最大化与主动推理之间的联系。确切地说，我们展示了在何种条件下主动推理产生贝尔曼方程的最优解，该方程是模型驱动的强化学习和控制的几种方法的基础。在部分观察到的马尔可夫决策过程中，标准的主动推理方案可以产生规划时域为1时的贝尔曼最优操作，但不能超越。相反，最近开发的递归主动推理方案（精细推理）可以在任何有限的时间范围内产生贝尔曼最优操作。我们通过讨论主动推理与强化学习之间更广泛的关系，补充了这一分析。

2024-01-17

1220

一个框架整合大脑理论 4 认知范式转变后的正宗AGI理论及大量理论的比较

强化学习编码函数框架模型

10章： Active Inference as a Unified Theory of Sentient Behavior

2023-12-28

3220

为AI配备目标；强化学习是最低的智能行为，昆虫和哺乳动物在第几层？

神经网络强化学习工作框架模型

理论生物学的最新进展表明，基础认知和感知行为是体外细胞培养和神经元网络的自然属性，respectively.这种神经元网络在大脑中自发地学习结构化行为在没有奖励或加强情况下。在这篇文章中，我们通过自由能原理的透镜来描述这种self-organisation，即不证自明的。我们要做到这一点，首先要基于主动推理的设置，definitions of reactive and sentient behaviour，模拟他们的行动的consequences。然后我们引入了一种对有意行为的正式解释，它将代理描述为由潜在状态空间中的首选端点或目标驱动。然后，我们研究这些形式的(反应性的、有感觉的和有意的(reactive, sentient, and intentional)行为模拟。首先，我们模拟上述体外实验，其中神经元培养通过实现嵌套的、自由能的最小化过程，自发地学习玩乒乓。然后模拟被用来解构随之而来的预测行为——区分仅仅是反应性的、有感觉的和有意的行为，后者以归纳计划的形式出现。这使用简单的机器学习基准进一步研究区别(导航一个网格世界和汉诺塔问题)，这显示了如何快速有效地适应性行为是在主动推理的归纳形式下出现的。

2023-12-20

1570

实时精准控制机械臂AGIagent

强化学习 agent 函数配置算法

AGI agent 通过贝叶斯推理自由能目标函数，进行实时推理并完美解决pendulum任务环境；追踪目标能力极强

2023-11-30

1590

27次训练即可解决小车双摆的强化学习算法

强化学习测试模型算法系统

动力系统的有效控制设计传统上依赖于高水平的系统理解，通常用精确的物理模型来表达。与此相反，强化学习采用数据驱动的方法，通过与底层系统交互来构建最优控制策略。为了尽可能降低真实世界系统的磨损，学习过程应该很短。在我们的研究中，我们使用最先进的强化学习方法PILCO设计了一种反馈控制策略，用于小车上双摆的摆动，在测试台上的测试迭代非常少。PILCO代表“学习控制的概率推理”，学习只需要很少的专家知识。为了实现小车上的双摆摆动到其上不稳定平衡位置，我们在PILCO中引入了额外的状态约束，从而可以考虑有限的小车距离。由于这些措施，我们第一次能够在真正的测试台上学习摆起，并且仅用了27次学习迭代。

2023-11-07

3700

超越强化学习：生命启发的AI

人工智能强化学习代理框架系统

构建自主的（即基于个人需求选择目标）和自适应的（即在不断变化的环境中生存）智能体一直是人工智能（al）的圣杯。一个活的有机体是这种代理的一个主要例子，提供了关于适应性自主的重要课程。在这里，我们把重点放在内感受上，这是一个监控体内环境使其保持在一定范围内的过程，它保证了生物体的生存。为了开发具有内视知觉的人工智能，我们需要从外部环境中分解代表内部环境的状态变量，并采用内部环境状态的受生命启发的数学特性。这篇论文提供了一个新的视角，通过将控制论的遗产与生命理论、强化学习和神经科学的最新进展相结合，内视知觉如何帮助构建自主和适应的主体。

2023-11-01

3090

可解释的抽象行为logicRL：逻辑推理+强化学习代码debug记录

强化学习 action agent debug

2023-09-01

1150

用概率推理解决强化学习- pyro colab代码

强化学习 https 网络安全编程算法

2018：Reinforcement Learning and Control as Probabilistic Inference: Tutorial and Review

2022-11-22

3400

智能生命的第一原理

神经网络机器学习深度学习人工智能强化学习

我们从统计物理学的第一原则和有机体必须维持其存在的核心要求开始——也就是说，避免令人惊讶的状态——然后引入自由能的最小化作为这个问题的计算上易处理的解决方案。本章揭示了近似贝叶斯推理中变分自由能的最小化和模型证据(或自证)的最大化之间的形式等价，揭示了自由能和自适应系统的贝叶斯观点之间的联系。

2022-04-15

5670

解读深度强化学习基石论文：函数近似的策略梯度方法

强化学习编程算法

导读：这篇是1999 年Richard Sutton 在强化学习领域中的经典论文，论文证明了策略梯度定理和在用函数近似 Q 值时策略梯度定理依然成立，本论文奠定了后续以深度强化学习策略梯度方法的基石。理解熟悉本论文对 Policy Gradient，Actor Critic 方法有很好的指导意义。

2020-12-29

1K0

通过代码学Sutton强化学习第四章动态规划

强化学习编程算法

经典教材Reinforcement Learning: An Introduction 第二版由强化领域权威Richard S. Sutton 和 Andrew G. Barto 完成编写，内容深入浅出，非常适合初学者。本篇详细讲解第四章动态规划算法，我们会通过Grid World示例来结合强化学习核心概念，用python代码实现在OpenAI Gym的模拟环境中第四章基于动态规划的算法：策略评价（Policy Evaluation）、策略提升（Policy Improvment）、策略迭代（Policy Iteration）、值迭代（Value Iteration）和异步迭代方法（Asynchronous DP）。

2020-10-22

1.3K0

Soft Reinforcement Learning 介绍

强化学习编程算法

Soft Reinforcement Learning (SRL) 是强化学习的一个新的范式，脱胎于最大熵强化学习 (Maximum Entropy Reinforcement Learning)。相比之下，我称普通的强化学习为 Hard Reinforcement Learning (HRL)。

2020-09-28

8920

Qzero算法介绍

编程算法强化学习 linux

1. AlphaZero算法：算法的核心是把MCTS算法与深度强化学习（DRL）结合起来（使用MCTS算法作为RL的policy improvement机制）。为了达到这个目的做了两点改动：

2020-09-28

1.4K1

编程算法 https 网络安全强化学习

在上文指出：“基于policy optimization的强化学习算法的数学基础都是policy gradient 定理（PGT），比如PG, A2C, A3C, TRPO, PPO, IMPALA等等。现在我们有了soft policy gradient 定理，对应地可以演化出一系列新算法，比如SPG, SA2C, SA3C, STRPO, SPPO, SIMPALA等等。”

2020-08-13

6340

SPG定理与算法介绍

强化学习 .net https github 网络安全

在传统的policy optimization强化学习中，通常会手加一个动作熵作为探索项，然后对该项的权重因子调参以达到增加探索的目的。然而“In practice, moreover, policy gradient methods typically employ carefully tuned entropy regularization in order to prevent policy collapse.”，更严重的是动作熵的引入破坏了PG（policy gradient ）理论的自洽性，而对于一个理论来说自洽性重于泰山。

2020-08-04

1.4K0

Meet CreateAMind Cuju ( 谷歌足球 SOTA )

编程算法 https http 网络安全强化学习

谷歌足球（Google Research Football）是Google Brain 开发的一个足球仿真策略游戏。

2020-05-09

8710

SQN算法介绍

编程算法强化学习

SQN是Soft Q Network的缩写，是基于Q-value的强化学习算法，"Soft"指代的是熵正规化（ entropy regularization ）。SQN算法在2018年就写下了，但是由于我比较懒，一直没有写论文介绍，在此简略介绍。伪代码如下：

2020-05-07

1.8K0

Unsupervised learning and generative models

强化学习 identity

来自deepmind大神的演讲，https://www.youtube.com/watch?v=H4VGSYGvJiA，首先是五种对于数据分布的操作，非常有借鉴意义，总结的很棒，高屋建瓴。比如Iden

2019-10-16

3450

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态