开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

社区首页 >专栏 >【分享NVIDIA GTC大会干货】基于真实世界的数据集的深度强化学习

【分享NVIDIA GTC大会干货】基于真实世界的数据集的深度强化学习

作者头像

云帆沧海

发布于 2024-01-17 17:21:46

1280

发布于 2024-01-17 17:21:46

举报

文章被收录于专栏：编程杂记编程杂记

基于真实世界的数据集的深度强化学习

前言
一、离线强化学习基础
- 1.1 离线RL和模仿学习对比
- 1.2 Conservative Q-learning
- 1.３ＰＴＲ
二.机器人技术的离线RL预训练
- ２.１ＰＴＲ
三．大型语言模型的离线RL
四.离线RL对人类的影响

前言

本文的讲座来自于英伟达GTC大会首先附上原视频链接https://register.nvidia.com/flow/nvidia/gtcspring2023/attendeeportal/page/sessioncatalog/session/1666649323930001EDPn

机器学习大规模成功的共同要素是使用大量模型和大量的GPU训练，大多数的数据集都是有标签的数据集，虽然在传统意义上可以获得很好的效果，但是大多GPU训练都需要很高的花费和大型的数据集。然而进近几年未标记的数据运用越来越多，是现在机器学习非常重要的一部分，这就自然引入了强化学习技术，强化学习是直接推理决策及其后果的机器学习框架。然而，将强化学习与大多数现代机器学习系统运行的数据驱动范式相协调是很困难的，因为经典形式的强化学习是一种主动的在线学习范式。我们能否获得两全其美的优势——监督或无监督学习中的数据驱动方法可以利用以前收集的大型数据集，以及强化学习的决策形式主义，可以对决策及其后果进行推理？下文将介绍离线强化学习如何使其成为可能，离线强化学习如何从次优多任务数据、现实世界领域中的广泛泛化以及机器人和对话系统等设置中引人注目的应用程序实现有效的预训练。

一、离线强化学习基础

离线强化学习是指在没有与环境交互的情况下，使用之前收集的经验数据进行强化学习。与在线强化学习不同，离线强化学习可以通过分析存储的历史数据进行训练，而无需与环境进行交互。下文用RL来代替强化学习（Reinforcement Learning）

1.1 离线RL和模仿学习对比

从绿点到红点，模仿学习就只能重复轨迹，离线RL可以从混乱的轨迹中获得一个最优的轨迹。

在这里插入图片描述

离线RL学习可以采用数据集中每部分的优点来达到整体最优。

1.2 Conservative Q-learning

此算法和对抗训练有些相似，如下图，假设绿色曲线是真实函数，蓝色曲线是Q拟合函数，Q拟合函数试图找到绿色的真实曲线。第一行公式为正则化曲线，它试图找到具有高Q值的对抗分布，并最小化该分布下的Ｑ值，它能够发现这些高估点并将它推低，可以很好的防止过度估计。

在这里插入图片描述

下图是利用这个算法的一个示例：

在这里插入图片描述

利用这一算法训练的单一神经网络取得了很好的效果。

1.３ＰＴＲ

ＰＴＲ是以简单的方式对ｂｒｉｄｇｅ数据集中的所有任务训练的一个策略。对整个数据集进行预训练，然后针对新任务进行了１０次训练，然后将在回收ｂｒｉｄｇｅ数据集中的数据时进行微调，防止遗忘。并且使用热向量中的最后一个缩影来表示新的任务。

二.机器人技术的离线RL预训练

２.１ＰＴＲ

ＰＴＲ是以简单的方式对ｂｒｉｄｇｅ数据集中的所有任务训练的一个策略。对整个数据集进行预训练，然后针对新任务进行了１０次训练，然后将在回收ｂｒｉｄｇｅ数据集中的数据时进行微调，防止遗忘。并且使用热向量中的最后一个缩影来表示新的任务。

在这里插入图片描述

并且离线的ＲＬ训练有助于提高ＰＴＲ的性能

在这里插入图片描述

三．大型语言模型的离线RL

在进行训练之后采用，视觉对话进行评估，这体现资料离线RL可以在使用过程中数据来找出如何优化。

在这里插入图片描述

在这里插入图片描述

四.离线RL对人类的影响

通过观察人与人之间的玩耍，找出如何影响人类的行为，所有的辅助资料的可以了解到人类如何意外地相互影响。

在这里插入图片描述

在这里插入图片描述

同时机器人也可以影响人类的行为，更大的数据集将使它能够识别更加微妙的模式。

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2023-03-23，如有侵权请联系 cloudcommunity@tencent.com 删除

深度强化学习

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

深度强化学习

评论

登录后参与评论

0 条评论

热度

最新

LV.

目录

基于真实世界的数据集的深度强化学习
前言
一、离线强化学习基础
- 1.1 离线RL和模仿学习对比
- 1.2 Conservative Q-learning
- 1.３ＰＴＲ
二.机器人技术的离线RL预训练
- ２.１ＰＴＲ
三．大型语言模型的离线RL
四.离线RL对人类的影响

相关产品与服务

腾讯智能对话平台

腾讯智能对话平台（Tencent Bot Platform，TBP）专注于“对话即服务”的愿景，全面开放腾讯对话系统核心技术，为大型企业客户、开发者和生态合作伙伴提供开发平台和机器人中间件能力，实现便捷、低成本构建人机对话体验和高效、多样化赋能行业。

产品介绍产品文档