深度强化学习实验室-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

深度强化学习实验室

专栏成员

91

文章

170468

阅读量

44

订阅数

大规模语言模型与强化学习：从理论到实践

强化学习监督学习模型实践优化

有监督学习：这如同旅行者拿着一本旅行指南书，其中明确标注了各个景点、餐厅和交通方式。在这里，数据来源就好比这本书，提供了清晰的问题和答案对。

深度强化学习实验室

2024-06-07

1880

Richard Sutton ||智能决策器通用模型的探索

强化学习代理论文模型人工智能

强化学习和决策多学科的前提是随着时间的推移，多个学科对目标导向的决策有着共同的兴趣。本文的想法是通过提出一种关于决策者的观点来强化和深化这一前提，这种观点在心理学、人工智能、经济学、控制理论和神经科学中具有实质性和广泛的意义，我称之为智能体的通用模型。通用模型不包括任何特定于任何生物体、世界或应用领域的任何内容。通用模型确实包括决策者与世界互动的各个方面（必须有输入和输出，以及目标）和决策者的内部组成部分（用于感知、决策、内部评估和世界模型）。我确定了这些方面和组成部分，注意到它们在不同的学科中被赋予不同的名称，但基本上指的是相同的想法，并讨论了设计一个可以跨学科使用的中性术语的挑战和好处。现在是时候认识到并建立在多个不同学科在智能主体的实质性通用模型上的融合之上了。

深度强化学习实验室

2024-02-17

1140

【前沿速递】17所高校32位作者联合综述最新技术：RLHF 的开放问题和技术限制(34页)

强化学习工作模型系统优化

来自人类反馈的强化学习（RLHF）已成为一种重要的技术，使机器学习模型适应难以指定的目标。特别是，RLHF 是训练最先进的大型语言模型（LLM）的关键组成部分，例如 OpenAI 的 GPT-4、Anthropic 的 Claude 、Google 的 Bard，以及 Meta 的 Llama 2-Chat。RLHF 和类似的方法使法学硕士不仅可以对其训练数据的分布进行建模，还可以调整文本的分布，以便人类评估者对模型输出给予更高的评价。我们使用 RLHF 来指代结合了三个相互关联的过程的方法：反馈收集、奖励建模和策略优化。图 1（上）说明了此设置。反馈过程引起人类对模型输出的评估。奖励建模过程使用监督学习来训练模仿这些评估的奖励模型。策略优化过程优化人工智能系统，以产生从奖励模型中获得有利评估的输出。当效果良好时，与演示、手动设计的奖励函数或其他指定或学习奖励的方法相比，RLHF 可以相对轻松地识别“良好”行为。RLHF 的根源在于经济学的显示偏好理论。显示偏好理论形式化了这样一种想法，即人们可以从演员的行为中了解他们的目标。它很早就被机器学习领域采用，用于人机交互和强化学习的应用。今天使用的 RLHF 标准方法由 Christiano 等人于 2017 年推广。[2017]，它在引导深度强化学习社区对基于反馈的方法的关注方面发挥了关键作用。RLHF 已成为部署前微调 LLM 的主要策略，目标是生成符合人类目标的安全模型。尽管如此，使用 RLHF 进行微调的部署模型还是暴露了敏感的私人信息，幻觉的不真实内容。传播有利于特定政治意识形态的偏见，表现出阿谀奉承的反应，并表达了不良偏好（例如，不想成为关闭）。RLHF 也没有使模型能够抵御越狱（即颠覆系统通常运行的约束）或即时注入/提取的对抗性攻击。研究和产品团队都知道其中许多缺点，但很少有公共工作将 RLHF 的问题正式系统化。在本文中，我们调查了 RLHF 面临的挑战，以促进行业从业者的常识并确定进一步研究的开放问题。我们主要关注法学硕士的申请。我们做出三项贡献：

深度强化学习实验室

2023-08-18

5550

南栖提出高效多智能体离线强化学习方法，揭示多任务学习对多智能体离线强化学习的促进作用

强化学习技巧数据算法性能

以往多智能体多任务强化学习方法通常依赖多任务同时采样学习或迁移学习方法实现多智能体强化学习策略的多任务泛化能力，但该过程导致了大量的样本开销，且无法应对多智能体系统中随智能体数目和目标变化所导致的海量任务泛化问题。

深度强化学习实验室

2023-08-18

5330

【重磅Nature+代码开源】DeepMind提出AlphaDev, 用强化学习将排序算法提升70%

开源强化学习排序排序算法算法

今天要介绍的是，Google DeepMind 推出了 AlphaDev，一种利用强化学习来发现改进的计算机科学算法的人工智能系统，其自主构建的算法，超越了科学家和工程师几十年来打磨出来的算法，将一种每天在世界各地使用数万亿次的 C++ 算法的运行速度提高了70%。

深度强化学习实验室

2023-08-18

4680

【新书推荐】《强化学习的数学原理》-高效透彻地理解强化学习算法

强化学习 https 网络安全编程算法

强化学习是数学和应用的优美结合。如果我们从数学的角度去看待很多问题，能够更加透彻的理解强化学习中的很多问题。不过目前许多学习资料都尽可能避免介绍其中的数学原理，因为过多的数学可能会让不少读者望而生畏。

深度强化学习实验室

2022-09-23

1K0

【万字专栏总结】离线强化学习(OfflineRL)总结(原理、数据集、算法、复杂性分析、超参数调优等）

编程算法强化学习深度学习监督学习

强化学习发展的特别早，但一直不温不火，其中Sutton老爷子早在1998年就写了强化学习领域的圣经书籍：An Introduction : Reinforcement Learning ，但也并未开启强化学习发展的新局面。直到2012年，深度学习广泛兴起，大规模的神经网络被成功用于解决自然语言处理，计算机视觉等领域，人工智能的各个方向才开始快速发展，强化学习领域最典型的就是2013年DeepMind公司的Volodymyr Mnih发表Playing Atari with Deep Reinforcement Learning（DQN技术），可以说开启了深度强化学习技术发展的新高潮，2015年该论文的加强版Human-level control through deep reinforcement learning 登上Nature, 以及2016年Nature上的AlphaGo: Mastering the game of Go with deep neural networks and tree search 充分证明了深度强化学习技术的发展潜力。

深度强化学习实验室

2022-09-23

7.5K0

【经验】深度强化学习训练与调参技巧

编程算法强化学习腾讯云测试服务网络安全

来源：知乎(https://zhuanlan.zhihu.com/p/482656367)

深度强化学习实验室

2022-09-23

2.3K0

【47页综述】牛津大学联合7家单位发布AutoRL综述，还在手动调参吗？你已经落后了

强化学习 http

强化学习 (RL) 与深度学习的结合带来了一系列令人印象深刻的壮举，许多人认为（深度）强化学习提供了通向通用智能体的途径。然而，RL 智能体的成功通常对训练过程中的设计选择高度敏感，这可能需要繁琐且容易出错的手动调整。这使得将 RL 用于新问题变得具有挑战性，同时也限制了它的全部潜力。在机器学习的许多其他领域，AutoML 已经表明可以自动化此类设计选择，并且在应用于 RL 时也产生了有希望的初步结果。然而，自动强化学习 (AutoRL) 不仅涉及 AutoML 的标准应用，还包括 RL 独有的额外挑战，这些挑战自然会产生一组不同的方法。因此，AutoRL 已成为 RL 研究的一个重要领域，为从 RNA 设计到围棋等游戏的各种应用提供了希望。鉴于 RL 中考虑的方法和环境的多样性，许多研究都是在不同的子领域进行的，从元学习到进化。在本次调查中，我们寻求统一 AutoRL 领域，提供通用分类法，详细讨论每个领域并提出未来研究人员感兴趣的开放问题

深度强化学习实验室

2022-09-23

2910

【重磅】Gym发布 8 年后，迎来第一个完整环境文档，强化学习入门更加简单化！

api 强化学习编程算法

OpenAI Gym是一款用于研发和比较强化学习算法的环境工具包，它支持训练智能体（agent）做任何事——从行走到玩Pong或围棋之类的游戏都在范围中。它与其他的数值计算库兼容，如pytorch、tensorflow 或者theano 库等。现在主要支持的是python 语言

深度强化学习实验室

2022-09-23

2.6K0

【Mava】一个分布式多智能体强化学习研究框架

python 强化学习分布式 http

Mava 是一个用于构建多智能体强化学习 (MARL) 系统的库。Mava 为 MARL 提供了有用的组件、抽象、实用程序和工具，并允许对多进程系统训练和执行进行简单的扩展，同时提供高度的灵活性和可组合性。

深度强化学习实验室

2021-08-10

1.8K0

【最新】如何降低深度强化学习研究的计算成本(Reducing the Computational Cost of DeepRL)

编程算法游戏强化学习 https 网络安全

人们普遍认为，将传统强化学习与深度神经网络相结合的深度强化学习研究的巨大增长始于开创性的DQN算法的发表。这篇论文展示了这种组合的潜力，表明它可以产生可以非常有效地玩许多 Atari 2600 游戏的智能体。从那时起，已经有几种方法建立在原始 DQN 的基础上并对其进行了改进。流行的Rainbow 算法结合了这些最新进展，在ALE 基准测试中实现了最先进的性能. 然而，这一进步带来了非常高的计算成本，不幸的副作用是扩大了拥有充足计算资源的人和没有计算资源的人之间的差距。

深度强化学习实验室

2021-07-16

5240

强化学习 | 基于Novelty-Pursuit的高效探索方法

强化学习编程算法

Li, Ziniu, and Xiong-Hui Chen. “Efficient Exploration by Novelty-Pursuit.” International Conference on Distributed Artificial Intelligence, 2020, pp. 85–102.

深度强化学习实验室

2021-07-16

5400

【重磅推荐】哥大开源“FinRL”: 一个用于量化金融自动交易的深度强化学习库

强化学习编程算法 https 网络安全 github

目前，深度强化学习（DRL）技术在游戏等领域已经取得了巨大的成功，同时在量化投资中的也取得了突破性进展，为了训练一个实用的DRL 交易agent，决定在哪里交易，以什么价格交易以及交易的数量，这是一个具有挑战性的问题，那么强化学习到底如何与量化交易进行结合呢？下图是一张强化学习在量化交易中的建模图：

深度强化学习实验室

2021-03-17

3.8K0

【Nature重磅】OpenAI科学家提出全新强化学习算法，推动AI向智能体进化

go 编程算法游戏强化学习机器人

近年来，人工智能（AI）在强化学习算法的加持下，取得了令人瞩目的成就。比如在围棋、星际争霸 II 和 Dota 2 等诸多策略、竞技类游戏中，AI 都有着世界冠军级的表现，以及在机器人跑步、跳跃和抓握等技能的自主学习方面，也起到了显著的推动作用。

深度强化学习实验室

2021-03-17

1.6K0

【DeepMind】首发并开源Alchemy，一种元强化学习(meta-RL)基准环境。

sqlalchemy 强化学习 html 游戏 https

元学习作为一种增加强化学习的灵活性和样本效率的方法，科研学者对此的关注兴趣迅速增长。然而，该研究领域中的一个问题是缺乏足够的基准测试任务。通常，过去基准的基础结构要么太简单以至于无法引起兴趣，要么就太不明确了以至于无法进行有原则的分析。在当前的工作中，DeepMind科学家介绍了用于元RL研究的新基准：Alchemy，该基准是将结构丰富性与结构透明性相结合。它是在Unity中实现的3D视频游戏，涉及潜在的因果结构，该过程都经过程序重新采样，从而提供了结构学习，在线推理，假设测试以及基于抽象领域知识的动作排序。并在Alchemy上评估了一对功能强大的RL方法，并对这些方法进行了深入分析。结果清楚地表明，Alchemy作为元RL的挑战性基准提供了验证。

深度强化学习实验室

2021-02-26

7080

NeoRL: 接近真实世界的离线强化学习基准

强化学习 http 神经网络深度学习人工智能

众所周知，强化学习（RL）在游戏界的成功已经在 AI 界产生了轰动，不管是玩出历史高分的微软AI，还是继围棋之后，人工智能又攻克的德州扑克，亦或是利用“左右互搏”来增强学习的OpenAI。人工智能在不同的游戏中的最新得分已经超越了人类的水平。

深度强化学习实验室

2021-02-26

1.1K0

【喜报】"深度强化学习实验室"与"南栖仙策"达成战略合作

强化学习开源神经网络深度学习人工智能

为进一步推动下一代认知决策智能的发展，促进国内强化学习技术的理论探索、应用落地和人才培养，＂深度强化学习实验室＂与＂南栖仙策(南京)科技有限公司＂达成战略合作。

深度强化学习实验室

2021-01-29

7610

【实验室顾问】俞扬教授（CCF-IEEE CS青年科学家奖获得者）

编程算法强化学习监督学习游戏机器学习

摘要：CCF与IEEE CS决定授予俞扬博士2020年CCF-IEEE CS青年科学家奖，以表彰他在演化学习理论与开放环境强化学习方法方面所做出的突出贡献。

深度强化学习实验室

2021-01-29

6950

【书籍推荐】历时3年，清华大学iDLab实验室打造Reinforcement Learning and Control课程及讲义

http 强化学习编程算法自动驾驶无人驾驶

The Intelligent Driving Laboratory (iDLAB) is a part of the School of Vehicle and Mobility (SVM) at Tsinghua University. This lab focuses on advanced automatic control and machine learning algorithms, and their applications on autonomous driving, connected vehicles, driver assistance and driver behavior analysis, etc. Our research interests are loosely divided into four categories: (1) Perception, decision and control for autonomous vehicles and driver assistance systems; (2) Reinforcement learning and optimal control; (3) Distributed estimation, learning and control; and (4) Large-scale optimization and control of eco-automation and electrified powertrain. We have achieved a series of important research results and peer-reviewed publications publicly available through this website.

深度强化学习实验室

2021-01-29

8190

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态