腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
CreateAMind
专栏成员
举报
1002
文章
637749
阅读量
56
订阅数
订阅专栏
申请加入专栏
全部文章(999+)
其他(347)
模型(219)
https(98)
人工智能(96)
神经网络(93)
系统(87)
深度学习(83)
数据(77)
编程算法(72)
框架(68)
机器学习(60)
编码(58)
网络(49)
算法(46)
函数(44)
强化学习(42)
网络安全(40)
github(38)
开源(36)
架构(34)
代理(33)
原理(33)
对象(29)
工作(29)
连接(29)
论文(26)
机器人(24)
游戏(21)
变量(21)
自动驾驶(20)
git(18)
基础(18)
python(17)
存储(17)
memory(17)
设计(17)
优化(17)
http(14)
测试(14)
华为(13)
tensorflow(12)
html(12)
linux(12)
无人驾驶(12)
model(12)
效率(12)
models(10)
程序(10)
数学(10)
性能(10)
网站(8)
大数据(8)
统计(8)
分布式(7)
keras(7)
free(7)
解决方案(7)
图表(7)
数据分析(6)
nat(6)
abstract(6)
theory(6)
搜索(6)
硬件(6)
NLP 服务(5)
pytorch(5)
无监督学习(5)
安全(5)
agent(5)
bayesian(5)
code(5)
编程(5)
地图(5)
工具(5)
集合(5)
事件(5)
ios(4)
微信(4)
数据结构(4)
action(4)
epoch(4)
message(4)
openai(4)
self(4)
配置(4)
视频(4)
java(3)
.net(3)
ide(3)
自动化(3)
监督学习(3)
迁移(3)
algorithm(3)
data(3)
distribution(3)
logic(3)
network(3)
object(3)
set(3)
state(3)
后端(3)
内存(3)
同步(3)
异常(3)
c++(2)
go(2)
node.js(2)
api(2)
文件存储(2)
容器(2)
iis(2)
windows(2)
processing(2)
教育(2)
coding(2)
com(2)
constraints(2)
debug(2)
function(2)
gan(2)
gaussian(2)
gpt(2)
gradient(2)
gwt(2)
maze(2)
output(2)
pdf(2)
position(2)
probability(2)
process(2)
scale(2)
simulation(2)
slide(2)
structure(2)
task(2)
this(2)
time(2)
using(2)
笔记(2)
部署(2)
翻译(2)
计算机(2)
镜像(2)
开发(2)
内核(2)
前端(2)
全栈(2)
软件(2)
协议(2)
芯片(2)
压缩(2)
语法(2)
语音(2)
objective-c(1)
mac os(1)
php(1)
lua(1)
css(1)
json(1)
arm(1)
硬件开发(1)
云数据库 Redis(1)
ubuntu(1)
容器镜像服务(1)
spring(1)
批量计算(1)
访问管理(1)
腾讯云测试服务(1)
图像处理(1)
高性能计算(1)
医疗(1)
企业(1)
缓存(1)
ssh(1)
卷积神经网络(1)
erp(1)
gui(1)
面向对象编程(1)
自动化测试(1)
tcp/ip(1)
模式识别(1)
迁移学习(1)
数据处理(1)
数据可视化(1)
架构设计(1)
fpga(1)
信息流(1)
云计算(1)
分类算法(1)
es(1)
学习方法(1)
abstraction(1)
analysis(1)
architecture(1)
area(1)
binary(1)
build(1)
chatgpt(1)
classification(1)
config(1)
core(1)
correlation(1)
cpu(1)
dataset(1)
detection(1)
diff(1)
directory(1)
dynamic(1)
email(1)
error(1)
event(1)
events(1)
feed(1)
file(1)
fixed(1)
focus(1)
form(1)
format(1)
formatting(1)
frameworks(1)
global(1)
gmail(1)
google(1)
gpu(1)
hidden(1)
hpc(1)
identity(1)
input(1)
julia(1)
key(1)
linkedin(1)
local(1)
matrix(1)
meta(1)
mnist(1)
modeling(1)
mpi(1)
paypal(1)
permutation(1)
physics(1)
ps(1)
reduce(1)
reference(1)
repeat(1)
return(1)
rgb(1)
rules(1)
sampling(1)
semantics(1)
sharing(1)
simulator(1)
size(1)
sort(1)
spaces(1)
statistics(1)
subset(1)
survey(1)
target(1)
testing(1)
title(1)
torch(1)
vector(1)
version(1)
vr(1)
wiki(1)
workspace(1)
递归(1)
动态规划(1)
二进制(1)
反射(1)
高性能(1)
工程师(1)
工作流(1)
开源软件(1)
开源硬件(1)
可视化(1)
量化(1)
模块化(1)
实践(1)
调试(1)
学习笔记(1)
音频(1)
指针(1)
字符串(1)
数据转换(1)
深度学习框架(1)
搜索文章
搜索
搜索
关闭
解决Bongard问题:一种强化学习因果方法,2022
数据
强化学习
架构
解决方案
模型
Towards a solution to bongard problems: A causal approach
CreateAMind
2024-06-21
74
0
情绪的机制分析
工作
模型
系统
强化学习
代理
Deeply felt affect- the emergence of valence in deep active inference
CreateAMind
2024-03-07
114
0
系统比较RL与AIF
系统
强化学习
代理
模型
算法
主动推理是一种建模生物和人工智能代理行为的概率框架,源于最小化自由能的原则。近年来,该框架已成功应用于多种旨在最大化奖励的情境中,提供了与替代方法相媲美甚至有时更好的性能。在本文中,我们通过展示主动推理代理如何以及何时执行最大化奖励的最优操作,澄清了奖励最大化与主动推理之间的联系。确切地说,我们展示了在何种条件下主动推理产生贝尔曼方程的最优解,该方程是模型驱动的强化学习和控制的几种方法的基础。在部分观察到的马尔可夫决策过程中,标准的主动推理方案可以产生规划时域为1时的贝尔曼最优操作,但不能超越。相反,最近开发的递归主动推理方案(精细推理)可以在任何有限的时间范围内产生贝尔曼最优操作。我们通过讨论主动推理与强化学习之间更广泛的关系,补充了这一分析。
CreateAMind
2024-01-17
122
0
一个框架整合大脑理论 4 认知范式转变后的正宗AGI理论及大量理论的比较
强化学习
编码
函数
框架
模型
10章: Active Inference as a Unified Theory of Sentient Behavior
CreateAMind
2023-12-28
322
0
为AI配备目标;强化学习是最低的智能行为,昆虫和哺乳动物在第几层?
神经网络
强化学习
工作
框架
模型
理论生物学的最新进展表明,基础认知和感知行为是体外细胞培养和神经元网络的自然属性,respectively.这种神经元网络在大脑中自发地学习结构化行为在没有奖励或加强情况下。在这篇文章中,我们通过自由能原理的透镜来描述这种self-organisation,即不证自明的。我们要做到这一点,首先要基于主动推理的设置,definitions of reactive and sentient behaviour,模拟他们的行动的consequences。然后我们引入了一种对有意行为的正式解释,它将代理描述为由潜在状态空间中的首选端点或目标驱动。然后,我们研究这些形式的(反应性的、有感觉的和有意的(reactive, sentient, and intentional)行为模拟。首先,我们模拟上述体外实验,其中神经元培养通过实现嵌套的、自由能的最小化过程,自发地学习玩乒乓。然后模拟被用来解构随之而来的预测行为——区分仅仅是反应性的、有感觉的和有意的行为,后者以归纳计划的形式出现。这使用简单的机器学习基准进一步研究区别(导航一个网格世界和汉诺塔问题),这显示了如何快速有效地适应性行为是在主动推理的归纳形式下出现的。
CreateAMind
2023-12-20
157
0
实时精准控制机械臂AGIagent
强化学习
agent
函数
配置
算法
AGI agent 通过贝叶斯推理自由能目标函数,进行实时推理并完美解决pendulum任务环境;追踪目标能力极强
CreateAMind
2023-11-30
159
0
27次训练即可解决小车双摆的强化学习算法
强化学习
测试
模型
算法
系统
动力系统的有效控制设计传统上依赖于高水平的系统理解,通常用精确的物理模型来表达。与此相反,强化学习采用数据驱动的方法,通过与底层系统交互来构建最优控制策略。为了尽可能降低真实世界系统的磨损,学习过程应该很短。在我们的研究中,我们使用最先进的强化学习方法PILCO设计了一种反馈控制策略,用于小车上双摆的摆动,在测试台上的测试迭代非常少。PILCO代表“学习控制的概率推理”,学习只需要很少的专家知识。为了实现小车上的双摆摆动到其上不稳定平衡位置,我们在PILCO中引入了额外的状态约束,从而可以考虑有限的小车距离。由于这些措施,我们第一次能够在真正的测试台上学习摆起,并且仅用了27次学习迭代。
CreateAMind
2023-11-07
370
0
超越强化学习:生命启发的AI
人工智能
强化学习
代理
框架
系统
构建自主的(即基于个人需求选择目标)和自适应的(即在不断变化的环境中生存)智能 体一直是人工智能(al)的圣杯。一个活的有机体是这种代理的一个主要例子,提供了 关于适应性自主的重要课程。在这里,我们把重点放在内感受上,这是一个监控体 内环境使其保持在一定范围内的过程,它保证了生物体的生存。为了开发具有内视 知觉的人工智能,我们需要从外部环境中分解代表内部环境的状态变量,并采用内 部环境状态的受生命启发的数学特性。这篇论文提供了一个新的视角,通过将控制 论的遗产与生命理论、强化学习和神经科学的最新进展相结合,内视知觉如何帮助 构建自主和适应的主体。
CreateAMind
2023-11-01
309
0
可解释的抽象行为logicRL:逻辑推理+强化学习 代码debug记录
强化学习
action
agent
debug
CreateAMind
2023-09-01
115
0
用概率推理解决强化学习- pyro colab代码
强化学习
https
网络安全
编程算法
2018:Reinforcement Learning and Control as Probabilistic Inference: Tutorial and Review
CreateAMind
2022-11-22
340
0
智能生命的第一原理
神经网络
机器学习
深度学习
人工智能
强化学习
我们从统计物理学的第一原则和有机体必须维持其存在的核心要求开始——也就是说,避免令人惊讶的状态——然后引入自由能的最小化作为这个问题的计算上易处理的解决方案。本章揭示了近似贝叶斯推理中变分自由能的最小化和模型证据(或自证)的最大化之间的形式等价,揭示了自由能和自适应系统的贝叶斯观点之间的联系。
CreateAMind
2022-04-15
567
0
解读深度强化学习基石论文:函数近似的策略梯度方法
强化学习
编程算法
导读:这篇是1999 年Richard Sutton 在强化学习领域中的经典论文,论文证明了策略梯度定理和在用函数近似 Q 值时策略梯度定理依然成立,本论文奠定了后续以深度强化学习策略梯度方法的基石。理解熟悉本论文对 Policy Gradient,Actor Critic 方法有很好的指导意义。
CreateAMind
2020-12-29
1K
0
通过代码学Sutton强化学习第四章动态规划
强化学习
编程算法
经典教材Reinforcement Learning: An Introduction 第二版由强化领域权威Richard S. Sutton 和 Andrew G. Barto 完成编写,内容深入浅出,非常适合初学者。本篇详细讲解第四章动态规划算法,我们会通过Grid World示例来结合强化学习核心概念,用python代码实现在OpenAI Gym的模拟环境中第四章基于动态规划的算法:策略评价(Policy Evaluation)、策略提升(Policy Improvment)、策略迭代(Policy Iteration)、值迭代(Value Iteration)和异步迭代方法(Asynchronous DP)。
CreateAMind
2020-10-22
1.3K
0
Soft Reinforcement Learning 介绍
强化学习
编程算法
Soft Reinforcement Learning (SRL) 是强化学习的一个新的范式,脱胎于最大熵强化学习 (Maximum Entropy Reinforcement Learning)。相比之下,我称普通的强化学习为 Hard Reinforcement Learning (HRL)。
CreateAMind
2020-09-28
892
0
Qzero算法介绍
编程算法
强化学习
linux
1. AlphaZero算法: 算法的核心是把MCTS算法与深度强化学习(DRL)结合起来(使用MCTS算法作为RL的policy improvement机制)。为了达到这个目的做了两点改动:
CreateAMind
2020-09-28
1.4K
1
SDDPG = SAC1
编程算法
https
网络安全
强化学习
在上文指出:“基于policy optimization的强化学习算法的数学基础都是policy gradient 定理(PGT),比如PG, A2C, A3C, TRPO, PPO, IMPALA等等。现在我们有了soft policy gradient 定理,对应地可以演化出一系列新算法,比如SPG, SA2C, SA3C, STRPO, SPPO, SIMPALA等等。”
CreateAMind
2020-08-13
634
0
SPG定理与算法介绍
强化学习
.net
https
github
网络安全
在传统的policy optimization强化学习中,通常会手加一个动作熵作为探索项,然后对该项的权重因子调参以达到增加探索的目的。然而“In practice, moreover, policy gradient methods typically employ carefully tuned entropy regularization in order to prevent policy collapse.”,更严重的是动作熵的引入破坏了PG(policy gradient )理论的自洽性,而对于一个理论来说自洽性重于泰山。
CreateAMind
2020-08-04
1.4K
0
Meet CreateAMind Cuju ( 谷歌足球 SOTA )
编程算法
https
http
网络安全
强化学习
谷歌足球(Google Research Football)是Google Brain 开发的一个足球仿真策略游戏。
CreateAMind
2020-05-09
871
0
SQN算法介绍
编程算法
强化学习
SQN是Soft Q Network的缩写,是基于Q-value的强化学习算法,"Soft"指代的是熵正规化( entropy regularization )。SQN算法在2018年就写下了,但是由于我比较懒,一直没有写论文介绍,在此简略介绍。伪代码如下:
CreateAMind
2020-05-07
1.8K
0
Unsupervised learning and generative models
强化学习
identity
来自deepmind大神的演讲,https://www.youtube.com/watch?v=H4VGSYGvJiA,首先是五种对于数据分布的操作,非常有借鉴意义,总结的很棒,高屋建瓴。比如Iden
CreateAMind
2019-10-16
345
0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档