首页
学习
活动
专区
工具
TVP
发布
首页标签强化学习

#强化学习

强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。

可控核聚变新里程碑!AI成功预测等离子体撕裂登Nature,清洁能源「圣杯」更近一步

新智元

而最近,普林斯顿团队用AI提前300毫秒预测了核聚变等离子不稳定态,这个时间,就足够约束磁场调整应对等离子体的逃逸!

1210

20分钟学会装配电路板!开源SERL框架精密操控成功率100%,速度三倍于人类

机器之心

近年来,机器人强化学习技术领域取得显著的进展,例如四足行走,抓取,灵巧操控等,但大多数局限于实验室展示阶段。将机器人强化学习技术广泛应用到实际生产环境仍面临众多...

2100

性能提升、成本降低,这是分布式强化学习算法最新研究进展

机器之心

深度强化学习(Deep Reinforcement Learning,DRL)是一种公认的解决连续决策问题的有效技术。为了应对 DRL 的数据低效(data i...

1310

谷歌提出全新RLHF方法:消除奖励模型,且无需对抗性训练

机器之心

大型语言模型(LLM)的成功离不开「基于人类反馈的强化学习(RLHF)」。RLHF 可以大致可以分为两个阶段,首先,给定一对偏好和不偏好的行为,训练一个奖励模型...

2310

榕树集--使用强化学习自上而下的进行蛋白质结构设计

DrugSci

天然的蛋白质通常具有形状互补性来生成适合功能的体系结构,这是进化选择的结果,目前的设计方法无法实现。在本文中,作者描述了一种Top-down的强化学习方法:在整...

5710

AI技术大揭秘:探索人工智能的核心领域与必备技能

xcbeyond

随着人工智能的不断进步,AI技术在各个领域都发挥着越来越关键的作用。想要成为AI领域的从业者,不仅需要对整体格局有清晰认识,更要掌握关键技术和必备技能。本文将深...

12110

机器狗界变形金刚来了:“人”狗之间灵活切换,可用前肢开门取物,瑞士团队出品

量子位

而为了让机器狗能够站立并完成开门等动作,团队通过一种名为“好奇心驱动”的强化学习方法对它进行了训练。

7410

Richard Sutton ||智能决策器通用模型的探索

深度强化学习实验室

强化学习和决策多学科的前提是随着时间的推移,多个学科对目标导向的决策有着共同的兴趣。本文的想法是通过提出一种关于决策者的观点来强化和深化这一前提,这种观点在心理...

4710

OpenAI Gym高级教程——解决实际问题与研究探索

人类群星闪耀时

OpenAI Gym是一个强化学习的标准工具包,可用于解决各种实际问题和进行研究探索。本教程将深入探讨如何利用OpenAI Gym解决实际问题,并进行相关研究。...

7010

OpenAI Gym高级教程——领域自适应强化学习

人类群星闪耀时

OpenAI Gym是一个为强化学习任务提供统一接口的开源平台,它允许研究人员和开发者使用标准化的环境进行实验和开发。本教程将介绍OpenAI Gym的高级用法...

7310

OpenAI Gym 高级教程——可解释性和可视化

人类群星闪耀时

在本篇博客中,我们将深入探讨 OpenAI Gym 高级教程,聚焦于强化学习模型的可解释性和可视化。我们将使用解释性工具和数据可视化方法,以便更好地理解模型的决...

9010

OpenAI Gym 中级教程——强化学习实践项目

人类群星闪耀时

通过这个实际项目,我们演示了如何在 OpenAI Gym 中使用深度 Q 网络(DQN)来解决经典的 CartPole 问题。我们创建了一个简单的 DQN 模型...

7210

OpenAI Gym 中级教程----深入解析 Gym 代码和结构

人类群星闪耀时

通过深入解析 Gym 的代码和结构,我们更好地理解了 Gym 是如何设计和实现的。Gym 提供了一个灵活而强大的框架,使得开发、测试和比较强化学习算法变得更加方...

12610

OpenAI Gym 中级教程——深入强化学习算法

人类群星闪耀时

OpenAI Gym 是一个用于开发和比较强化学习算法的工具包,提供了多个环境,包括经典的控制问题和 Atari 游戏。本篇博客将深入介绍 OpenAI Gym...

10110

原创 | 基于Python的强化学习库

数据派THU

OpenAI Gym是一个用于开发和比较强化学习算法的Python库。它提供了一个标准化的环境,使得研究人员可以轻松地测试和比较他们的算法。Gym库中的环境可以...

11310

普林斯顿博士生高天宇指令微调进展速览:数据、算法和评估

机器之心

图源:https://twitter.com/gaotianyu1350/status/1731651192026247435

12210

强化学习第1天:马尔可夫过程

Nowl

作了这么多基础铺垫,再回到强化学习上来吧,强化学习的目标就是找到一个策略,来获得最高的期望回报,从初始状态出发到达最终目的可能有很多策略,但很容易知道,一定有一...

9610

强化学习第1天:强化学习概述

Nowl

强化学习中有一些重要的概念,我们接下来一一介绍他们,如果有些不理解不要着急,我们会举一个具体例子来解释

11710

RLHF 和 DPO:简化和增强语言模型的微调

致Great

人类反馈强化学习 (RLHF) 是人工智能领域的一种前沿方法,它利用人类偏好和指导来训练和改进机器学习模型。

40610
领券