数据派THU-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

数据派THU

专栏成员

2149

文章

2150276

阅读量

191

订阅数

原创 | 基于Python的强化学习库

python 强化学习开发数据算法

OpenAI Gym是一个用于开发和比较强化学习算法的Python库。它提供了一个标准化的环境，使得研究人员可以轻松地测试和比较他们的算法。Gym库中的环境可以是简单的数学问题，也可以是复杂的机器人控制问题。它还提供了多种预定义的环境，如CartPole、MountainCar等，这些环境都可以用于测试和比较强化学习算法。

2024-01-24

2880

强化学习实现智能城市规划，清华团队最新成果登Nature子刊

人工智能强化学习布局模型网络

由于城市地理空间的多样性和巨大的动作空间，给城市布局用地和道路是一件非常复杂而困难的任务，长久以来一直依靠人类规划师的经验和直觉。如今，城市规划领域也有了自己的AlphaGo。

2023-09-21

1.5K0

原创 | 一文读懂无模型的预测（强化学习二）

强化学习动态规划函数模型优化

在已知的马尔可夫决策过程（MDP）中，无论是策略迭代（policy iteration）还是价值迭代(value iteration)，都假定已知环境（Environment）的动态和奖励（dynamics and reward），然而在许多的真实世界的问题中，MDP模型或者是未知的，或者是已知的但计算太复杂。本文讲述无模型的预测与控制Model-free Prediction and Control 中的前半部分，无模型的预测（Model-free Prediction）通过与环境的交互迭代来求解问题。

2023-09-18

3090

原创 | 一文读懂多模态强化学习

强化学习机器人编码模型数据

多模态强化学习是将多个感知模态和强化学习相结合的方法，能够使智能系统从多个感知源中获取信息，并利用这些信息做出更好的决策。这种方法对于处理现实世界中的复杂任务具有潜在的价值，并为智能系统的发展提供了新的研究方向。

2023-09-07

5420

原创 | 一文读懂强化学习在动态规划领域的应用

强化学习动态规划函数模型数据

作者：黄娘球本文约1600字，建议阅读5分钟本文澄清易混淆基础概念、推导公式为主，回顾强化学习基础知识。

2023-08-08

3170

训练提速17%，第四范式开源强化学习研究框架，支持单、多智能体训练

开源强化学习框架模型数据

来源：机器之心本文约4000字，建议阅读10分钟强化学习研究框架 OpenRL 是基于 PyTorch 开发的，已经在 GitHub 上开源。 OpenRL 是由第四范式强化学习团队开发的基于 PyTorch 的强化学习研究框架，支持单智能体、多智能体、自然语言等多种任务的训练。 OpenRL 基于 PyTorch 进行开发，目标是为强化学习研究社区提供一个简单易用、灵活高效、可持续扩展的平台。目前，OpenRL 支持的特性包括：简单易用且支持单智能体、多智能体训练的通用接口支持自然语言任务（如对话任务

2023-05-18

4530

ICLR 2023 Spotlight | Yoshua Bengio团队新作，生成拓展流网络

强化学习函数框架网络性能

来源：机器之心本文约7300字，建议阅读10+分钟本文介绍关于生成流网络 (Generative Flow Networks) 的一个近期研究工作。本工作已入选 ICLR 2023 Spotlight，也是 GFlowNets 领域第一篇 Spotlight 文章。本文介绍关于生成流网络 (Generative Flow Networks) 的一个近期研究工作。在生成流网络 (Generative Flow Networks, GFlowNet) 中，智能体学习一个随机策略进行目标生成，使得生成目标的概

2023-05-18

3720

收藏！大型语言模型（LLMs）大盘点，含源码及Demo地址（附链接）

开源强化学习模型数据源码

来源：AINLPer 本文约4000字，建议阅读8分钟本文作者盘点了一些组织或者个人开源的模型。 ChatGPT爆火出圈，国内很多高校、研究机构和企业都发出类似ChatGPT的发布计划。ChatGPT没有开源，复现难度极大，即使到现在GPT3的完全能力也没有任何一个单位或者企业进行了复现。刚刚，OpenAI又官宣发布了图文多模态的GPT4模型，能力相对ChatGPT又是大幅提升，似乎闻到了以通用人工智能主导的第四次工业革命的味道。无论是国外还是国内，目前距离OpenAI的差距越来越大，大家都在紧锣密鼓的

2023-05-11

1.7K0

利用强化学习Q-Learning实现最短路径算法

强化学习 nodes 代理数据算法

📷 来源：Deephub Imba 本文约2100字，建议阅读5分钟本文中我们将尝试找出一种方法，在从目的地a移动到目的地B时尽可能减少遍历路径。如果你是一名计算机专业的学生，有对图论有基本的了解

2023-05-11

5530

原创 | 一文读懂强化学习DQN算法

强化学习函数数据算法网络

作者：贾恩东本文约3000字，建议阅读8分钟本文介绍了强化学习DQN的算法。本文是入门强化学习系列的第二篇，上一篇是入门篇《一文读懂强化学习》。上一篇中讲过强化学习的核心问题是找到最优的策略函数，而评价策略函数好坏的指标之一则是状态价值函数。这里快速回顾一下状态价值函数的定义。在某时刻，在每种可能发生的状态 s 下，agent 都可以有动作 a （a∈A,A为所有可能动作的集合）可以选择，而每次执行动作，系统就会跳转到下一时刻，而状态就会发生转移，状态的转移不是唯一确定的，其概率分布由系统的状态转移概

2023-04-25

7860

无需强化学习的与人类偏好对齐的语言模型：Wombat袋熊

强化学习监督学习模型数据算法

本文约1200字，建议阅读5分钟本文提出了基于排序的人类偏好对齐方法。 OpenAI 的 ChatGPT 理解多种多样的的人类指令，并且可以很好的应对不同的语言任务需求。自发布以来就掀起了对于通用人工智能的讨论。ChatGPT 令人惊叹的能力来源于一种新颖的大规模语言模型微调方法：RLHF（通过强化学习对齐人类反馈）。 RLHF 方法不同于以往传统的监督学习的微调方式，该方法首先让模型根据指令提示生成不同的回复，之后通过人工的评价反馈，使用强化学习的方式对 LLM 进行微调。RLHF 解锁了语言模型跟从人

2023-04-25

3150

7个流行的强化学习算法及代码实现

强化学习函数模型算法网络

来源：Deephub Imba 本文约4500字，建议阅读5分钟本文介绍了流行的强化学习算法的发展和改进。目前流行的强化学习算法包括 Q-learning、SARSA、DDPG、A2C、PPO、DQN 和 TRPO。这些算法已被用于在游戏、机器人和决策制定等各种应用中，并且这些流行的算法还在不断发展和改进，本文我们将对其做一个简单的介绍。 1、Q-learning Q-learning：Q-learning 是一种无模型、非策略的强化学习算法。它使用 Bellman 方程估计最佳动作值函数，该方程

2023-04-18

5030

DDPG强化学习的PyTorch代码实现和逐步讲解

强化学习 pytorch 代理模型网络

来源：Deephub Imba本文约4300字，建议阅读10分钟本文将使用pytorch对其进行完整的实现和讲解。深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG)是受Deep Q-Network启发的无模型、非策略深度强化算法，是基于使用策略梯度的Actor-Critic，本文将使用pytorch对其进行完整的实现和讲解。 DDPG的关键组成部分是 Replay Buffer Actor-Critic neural network Explorati

2023-04-05

7290

独家 | 三个经典强化学习算法中重大缺陷（及如何修复）

强化学习函数解决方案数据算法

诸如Q-learning和REINFORCE等强化学习算法问世已经几十年了，教科书仍然广泛围绕它们。然而这些算法暴露出的一些根本的缺陷，极大地增加了一个良好策略进行学习的难度。

2023-03-29

8060

FAIR 训练 AI 玩拳击，效果堪比真人比赛，试探+周旋+爆头

强化学习框架论文模型数据

来源：AI科技评论本文约2300字，建议阅读5分钟两个人工智能体学会了拳击。 AI 拳击可以有多好玩？小红红，吃我一拳。嘿，我挡。前期先试探周旋几次，再找机会吧。没错，就是这个空隙，爆头。还想故技重施，我躲。怎么样，AI 拳击动画效果是不是和真人比赛神相似？基于 AI 深度强化学习的拳击选手身体不仅拥有超高自由度，而且它还掌握了格挡、后退、摆拳等拳击基本动作。 Facebook 人工智能研究部门（FAIR）在机器学习领域，总能带来一些意想不到的成果，上面的演示正是它们在《Contro

2023-03-29

2390

死侍在新片中，扮演了一个 AI 驱动的 NPC

游戏强化学习开发设计数据

来源：HyperAI超神经本文约2200字，建议阅读5分钟人工智能让小角色成为了大英雄。近期上映的电影《失控玩家》讲述了一个普通的游戏 NPC ，因为加入了 AI 技术，将其改造成了一个想要扭转玩家命运、改变游戏的大人物。游戏 AI 的普及，让《失控玩家》中描绘的场景逐渐得以实现。关键词：游戏AI 强化学习最近在北美和中国上映了一部以电子游戏为创作背景的电影《Free Guy》（中文片名译作《失控玩家》），由《死侍》的扮演者瑞安·雷诺茨主演。全片轻松搞笑，特效精致，暑期档里表现亮眼，全球

2023-03-29

5070

开源方案复现ChatGPT流程！1.62GB显存即可体验，单机训练提速7.73倍

开源强化学习模型内存数据

来源：潞晨科技本文约4000字，建议阅读8分钟Colossal-AI 快速跟进，首个开源低成本复现 ChatGPT 完整流程。火爆全网的 ChatGPT，仿佛开启了第四次工业革命，让微软、谷歌等全球科技巨头打得昏天黑地，引得各路玩家纷纷入局，抢占赛道。然而由于 OpenAI 没有开源 ChatGPT，如何有效复现 ChatGPT 已成为摆在大家面前的头号难题，急需可靠的开源共建方案。 Colossal-AI 快速跟进，首个开源低成本复现 ChatGPT 完整流程。作为当下最火热的开源 AI 大模型解决

2023-03-29

1.2K0

ChatGPT/InstructGPT详解

强化学习 chatgpt 模型数据算法

来源：京东云海豚数据科学实验室本文约7000字，建议阅读15分钟要搞懂ChatGPT，我们必须要先读懂InstructGPT。前言 GPT系列是OpenAI的一系列预训练文章，GPT的全称是Generative Pre-Trained Transformer，顾名思义，GPT的目的就是通过Transformer为基础模型，使用预训练技术得到通用的文本模型。目前已经公布论文的有文本预训练GPT-1，GPT-2，GPT-3，以及图像预训练iGPT。据传还未发布的GPT-4是一个多模态模型。最近非常火的Cha

2023-03-29

8580

强化学习数学入门教程

强化学习函数教程论文数学

来源：专知本文为教程介绍，建议阅读5分钟本文旨在使听众对RL有足够的基本概念。我向实验室成员提供了一份关于强化学习的数学深入教程。这是为了帮助成员学习RL方法并将其应用于各自的问题领域，也为了我自己深入理解RL。演讲从Atari游戏玩智能体的背景下解释学习智能体开始，并解释了典型RL方法和论文中使用的不同成本函数和术语。本演讲旨在使听众对RL有足够的基本概念，以便他们可以立即开始阅读有关RL的最新论文，并能够理解其中的术语。 https://anmolsharma.co/talk/rl-tut/

2023-03-29

1350

【干货书】基于模型的强化学习:使用python工具箱从数据到连续动作

机器学习强化学习框架模型数据

来源：专知本文为书籍介绍，建议阅读5分钟基于模型的强化学习探索了一种全面而实用的强化学习方法。强化学习是机器学习的一种基本范式，其中智能体执行动作以确保设备的最佳行为。虽然这种机器学习范式近年来获得了巨大的成功和普及，但之前的学术要么专注于理论最优控制和动态规划，要么专注于算法，其中大多数是基于仿真的。 https://www.wiley.com/en-us/Model+Based+Reinforcement+Learning%3A+From+Data+to+Continuous+Actions+wit

2023-03-29

3370

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态