深度强化学习实验室

文章/答案/技术大牛

发布

LV0

发表了文章 2024-06-072024-06-07 16:35:07

大规模语言模型与强化学习：从理论到实践

有监督学习：这如同旅行者拿着一本旅行指南书，其中明确标注了各个景点、餐厅和交通方式。在这里，数据来源就好比这本书，提供了清晰的问题和答案对。

深度强化学习实验室 2024-06-072024-06-07 16:35:07

强化学习、监督学习、模型、实践、优化

发表了文章 2024-02-172024-02-17 15:47:27

Richard Sutton ||智能决策器通用模型的探索

强化学习和决策多学科的前提是随着时间的推移，多个学科对目标导向的决策有着共同的兴趣。本文的想法是通过提出一种关于决策者的观点来强化和深化这一前提，这种观点在心理...

深度强化学习实验室 2024-02-172024-02-17 15:47:27

强化学习、代理、论文、模型、人工智能

发表了文章 2023-11-172023-11-17 20:45:00

【重磅最新】DeepMind发布"AGI 的六个层次及原则：实现 AGI 道路上的最近进展"！

DeepMind提出了一个框架，用于对通用人工智能（AGI）模型及其前身的能力和行为进行分类。该框架引入了 AGI 性能、通用性和自治性的级别。框架能够以类似于...

深度强化学习实验室 2023-11-172023-11-17 20:45:03

人工智能、测试、框架、系统、性能

发表了文章 2023-08-182023-08-18 12:31:41

【前沿速递】17所高校32位作者联合综述最新技术：RLHF 的开放问题和技术限制(34页)

来自人类反馈的强化学习（RLHF）已成为一种重要的技术，使机器学习模型适应难以指定的目标。特别是，RLHF 是训练最先进的大型语言模型（LLM）的关键组成部分，...

深度强化学习实验室 2023-08-182023-08-18 12:31:41

强化学习、工作、模型、系统、优化

发表了文章 2023-08-182023-08-18 12:30:14

南栖提出高效多智能体离线强化学习方法，揭示多任务学习对多智能体离线强化学习的促进作用

以往多智能体多任务强化学习方法通常依赖多任务同时采样学习或迁移学习方法实现多智能体强化学习策略的多任务泛化能力，但该过程导致了大量的样本开销，且无法应对多智能体...

深度强化学习实验室 2023-08-182023-08-18 12:30:14

强化学习、技巧、数据、算法、性能

发表了文章 2023-08-182023-08-18 12:29:19

【重磅Nature+代码开源】DeepMind提出AlphaDev, 用强化学习将排序算法提升70%

今天要介绍的是，Google DeepMind 推出了 AlphaDev，一种利用强化学习来发现改进的计算机科学算法的人工智能系统，其自主构建的算法，超越了科学...

深度强化学习实验室 2023-08-182023-08-18 12:29:19

开源、强化学习、排序、排序算法、算法

发表了文章 2023-08-182023-08-18 12:26:30

【AAAI2023论文解读】结构信息原理指导的基于角色发现的高效稳定多智能体协作

成果发表在国际会议AAAI2023上，论文地址：https://doi.org/10.48550/arXiv.2304.00755

深度强化学习实验室 2023-08-182023-08-18 12:26:30

编码、论文、算法、网络、原理

发表了文章 2022-12-312022-12-31 09:38:35

【最全总结】离线强化学习(Offline RL)数据集、Benchmarks、经典算法、软件、竞赛、落地应用、核心算法解读汇总

Supported by: Nanjing University and Polixir

深度强化学习实验室 2022-12-312022-12-31 09:38:35

scala、html、编程算法

发表了文章 2022-12-312022-12-31 09:37:47

【重磅最新】ICLR2023顶会376篇深度强化学习论文得分出炉(376/4753,占比8%)

声明：本文整理自顶会ICLR-2023官方，强化学习相关文章大约共计376篇(376/4753), 占比8%，整理难免有不足之处，还望交流指正。

深度强化学习实验室 2022-12-312022-12-31 09:37:47

编程算法

发表了文章 2022-12-312022-12-31 09:36:55

【前沿最新】主动离线策略选择算法(Active offline policy selection)(附开源代码)

https://www.deepmind.com/publications/active-offline-policy-selection

深度强化学习实验室 2022-12-312022-12-31 09:36:55

机器人、https、网络安全、github

发表了文章 2022-09-232022-09-23 15:00:08

【新书推荐】《强化学习的数学原理》-高效透彻地理解强化学习算法

强化学习是数学和应用的优美结合。如果我们从数学的角度去看待很多问题，能够更加透彻的理解强化学习中的很多问题。不过目前许多学习资料都尽可能避免介绍其中的数学原理，...

深度强化学习实验室 2022-09-232022-09-23 15:00:08

强化学习、https、网络安全、编程算法

发表了文章 2022-09-232022-09-23 14:58:16

【DeepNash智能体】DeepMind-34位作者联名发表“无模型多智能体强化学习战略游戏”新基准

我们介绍了 DeepNash，一种能够从零开始学习玩不完美信息游戏 Stratego1 的自主智能体，直至达到人类专家的水平。Stratego 是人工智能 (A...

深度强化学习实验室 2022-09-232022-09-23 14:58:16

游戏、node.js、python

发表了文章 2022-09-232022-09-23 14:57:12

【万字专栏总结】离线强化学习(OfflineRL)总结(原理、数据集、算法、复杂性分析、超参数调优等）

强化学习发展的特别早，但一直不温不火，其中Sutton老爷子早在1998年就写了强化学习领域的圣经书籍：An Introduction : Reinforcem...

深度强化学习实验室 2022-09-232022-09-23 14:57:12

编程算法、强化学习、深度学习、监督学习

发表了文章 2022-09-232022-09-23 14:53:45

【经验】深度强化学习训练与调参技巧

来源：知乎(https://zhuanlan.zhihu.com/p/482656367)

深度强化学习实验室 2022-09-232022-09-23 14:53:45

编程算法、强化学习、腾讯云测试服务、网络安全

发表了文章 2022-09-232022-09-23 14:53:07

【论文分享】ICLR2022 HyperDQN: A Randomized Exploration for Deep RL

Ziniu Li, Yingru Li, Yushun Zhang, Tong Zhang, and Zhi-Quan Luo. HyperDQN: A Ran...

深度强化学习实验室 2022-09-232022-09-23 14:53:07

机器学习、神经网络、深度学习、人工智能

发表了文章 2022-09-232022-09-23 14:50:31

【Richard S. Sutton】谈 The Bitter Lesson(AI 研究中痛苦的教训)

从 70 年的 AI 研究中可以读出的最大教训是，利用计算的一般方法最终是最有效的，而且幅度很大。造成这种情况的最终原因是摩尔定律，或者更确切地说是它对每单位计...

深度强化学习实验室 2022-09-232022-09-23 14:50:31

深度学习、linux

发表了文章 2022-09-232022-09-23 14:47:59

【47页综述】牛津大学联合7家单位发布AutoRL综述，还在手动调参吗？你已经落后了

强化学习 (RL) 与深度学习的结合带来了一系列令人印象深刻的壮举，许多人认为（深度）强化学习提供了通向通用智能体的途径。然而，RL 智能体的成功通常对训练过程...

深度强化学习实验室 2022-09-232022-09-23 14:47:59

强化学习、http

发表了文章 2022-09-232022-09-23 14:45:01

【重磅】Gym发布 8 年后，迎来第一个完整环境文档，强化学习入门更加简单化！

OpenAI Gym是一款用于研发和比较强化学习算法的环境工具包，它支持训练智能体（agent）做任何事——从行走到玩Pong或围棋之类的游戏都在范围中。它与...

深度强化学习实验室 2022-09-232022-09-23 14:45:01

api、强化学习、编程算法

发表了文章 2022-09-232022-09-23 14:43:59

重磅推荐【Pettingzoo】类似gym的多Agent强化学习的环境（61类环境），史上最全！

http://deeprl.neurondance.com/d/465-pettingzoogymagent

深度强化学习实验室 2022-09-232022-09-23 14:43:59

http、api

发表了文章 2022-09-232022-09-23 14:42:33

【总结】为什么对累积奖励减去baseline项能起到减小方差的作用？

很多论文的工作都专注于减少policy gradient的方差，以得到更加优质且稳定的policy。其中一项最经典的工作就是对policy gradient的累...

深度强化学习实验室 2022-09-232022-09-23 14:42:33

gradient、policy、split、技巧

12 3 4 5 下一页

个人简介

深度强化学习实验室 | 创始人&运营
专注于深度强化学习领域，包括环境、理论与算法实现、前沿技术与论文解读、开源项目等
编程算法
计算机科学与技术在读博士
http://deeprlhub.com/
北京
加入社区时间：2019-09-12

个人成就

获得 205 次赞同
文章被阅读 198K 次

关注了：1关注者：130