腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

机器之心

专栏作者

8931

文章

6283450

阅读量

277

订阅数

扩散模型如何构建新一代决策智能体？超越自回归，同时生成长序列规划轨迹

机器人函数模型数据强化学习

设想一下，当你站在房间内，准备向门口走去，你是通过自回归的方式逐步规划路径吗？实际上，你的路径是一次性整体生成的。

2024-03-18

1250

20分钟学会装配电路板！开源SERL框架精密操控成功率100%，速度三倍于人类

开源强化学习机器人计算机科学框架

近年来，机器人强化学习技术领域取得显著的进展，例如四足行走，抓取，灵巧操控等，但大多数局限于实验室展示阶段。将机器人强化学习技术广泛应用到实际生产环境仍面临众多挑战，这在一定程度上限制了其在真实场景的应用范围。强化学习技术在实际应用的过程中，任需克服包括奖励机制设定、环境重置、样本效率提升及动作安全性保障等多重复杂的问题。业内专家强调，解决强化学习技术实际落地的诸多难题，与算法本身的持续创新同等重要。

2024-02-26

1080

性能提升、成本降低，这是分布式强化学习算法最新研究进展

分布式强化学习量化算法性能

深度强化学习（Deep Reinforcement Learning，DRL）是一种公认的解决连续决策问题的有效技术。为了应对 DRL 的数据低效（data inefficiency）问题，受到分布式机器学习技术的启发，分布式深度强化学习 (distributed deep reinforcement learning，DDRL) 已提出并成功应用于计算机视觉和自然语言处理领域。有观点认为，分布式强化学习是深度强化学习走向大规模应用、解决复杂决策空间和长期规划问题的必经之路。

2024-02-26

1620

谷歌提出全新RLHF方法：消除奖励模型，且无需对抗性训练

强化学习函数论文模型优化

大型语言模型（LLM）的成功离不开「基于人类反馈的强化学习（RLHF）」。RLHF 可以大致可以分为两个阶段，首先，给定一对偏好和不偏好的行为，训练一个奖励模型，通过分类目标为前者分配更高的分数。然后通过某种强化学习算法优化这个奖励函数。然而，奖励模型的关键要素可能会产生一些不良影响。

2024-02-26

1380

普林斯顿博士生高天宇指令微调进展速览：数据、算法和评估

模型数据算法开源强化学习

图源：https://twitter.com/gaotianyu1350/status/1731651192026247435

2024-01-23

1590

大模型+机器人，详尽的综述报告来了，多位华人学者参与

强化学习机器人基础模型数据

大模型的出色能力有目共睹，而如果将它们整合进机器人，则有望让机器人拥有一个更加智能的大脑，为机器人领域带来新的可能性，比如自动驾驶、家用机器人、工业机器人、辅助机器人、医疗机器人、现场机器人和多机器人系统。

2023-12-28

3690

NeurIPS 2023 Spotlight | 腾讯AI Lab绝悟新突破：在星际2灵活策略应对职业选手

游戏强化学习测试算法腾讯

实时策略游戏（RTS）以其复杂的游戏环境更贴近现实世界，一直是 AI 研究的焦点和挑战所在。《星际争霸 2》作为其中极具代表性的游戏，因其对资源收集、战术规划和对手分析的高实时要求，已成为业内广泛用于训练和验证 AI 决策能力的理想平台。早在 2018 年，腾讯 AI Lab 研发的 AI 就已击败游戏内最高难度的 AI。

2023-12-20

1930

能总结经验、持续进化，上交把智能体优化参数的成本打下来了

强化学习模型设计性能优化

大模型的出现引发了智能体设计的革命性变革，在 ChatGPT 及其插件系统问世后，对大模型智能体的设计和开发吸引了极大的关注。帮助完成预订、下单等任务，协助编写文案，自主从网络上搜索最新的知识与新闻等等，这种通用、强大的智能助理，让大模型强大的语义理解、推理能力将之变成了可能。

2023-11-24

1490

斯坦福提出对比偏好学习：无需强化学习即可从人类反馈中学习

强化学习函数模型数据优化

在模型与人类意图对齐方面，根据人类反馈的强化学习（RLHF）已经成为一大流行范式。通常来说，RLHF 算法的工作过程分为两个阶段：一、使用人类偏好学习一个奖励函数；二、通过使用强化学习优化所学习的奖励来对齐模型。

2023-11-13

2570

让大模型自主探索开放世界，北大&智源提出训练框架LLaMA-Rider

强化学习框架模型数据 LLM

大语言模型因其强大而通用的语言生成、理解能力，展现出了成为通用智能体的潜力。与此同时，在开放式的环境中探索、学习则是通用智能体的重要能力之一。因此，大语言模型如何适配开放世界是一个重要的研究问题。

2023-11-07

2110

狂揽4k star，AI通过强化学习玩宝可梦，两万场后成功拿下

游戏强化学习函数视频数据

「口袋妖怪」是「宝可梦」的非官方译名。从 1996 年至今，它可以被分为数个世代，成为很多玩家心中的经典之作。游戏画风简单，但是身为策略游戏，其中包含的角色、属性、战术、体系等让这个游戏入门容易精通难。

2023-10-24

2960

让人恐惧的是，机器狗已经能做这种事了

神经网络强化学习机器人论文设计

跑酷是一项极限运动，需要参与者以高度动态的方式跨越障碍，对于大多数时候「笨手笨脚」的机器人来说，这似乎是件遥不可及的事，不过最近在机器人控制领域里出现了一些技术突破的趋势。几周前，机器之心曾报道过一个使用强化学习方法让机器狗实现跑酷的研究，实现了不错的效果。

2023-10-04

1930

Transformer+强化学习，谷歌DeepMind让大模型成为机器人感知世界的大脑

强化学习机器人函数模型数据

在开发机器人学习方法时，如果能整合大型多样化数据集，再组合使用强大的富有表现力的模型（如 Transformer），那么就有望开发出具备泛化能力且广泛适用的策略，从而让机器人能学会很好地处理各种不同的任务。比如说，这些策略可让机器人遵从自然语言指令，执行多阶段行为，适应各种不同环境和目标，甚至适用于不同的机器人形态。

2023-09-21

4570

AI海洋中的海妖之歌：腾讯AI Lab大模型幻觉问题综述

强化学习工作模型数据腾讯

大规模语言模型在众多下游任务中展现了惊人的能力，但它们在使用中仍然暴露了一些问题。其中，幻觉是目前影响大模型落地的重要问题之一。ChatGPT 的发布使学术界和工业界关注大模型实际落地的潜能，大量关于幻觉的工作也开始涌现。

2023-09-19

5600

攀爬、跳跃、过窄缝，开源强化学习策略让机器狗能跑酷了

开源强化学习机器人论文视频

跑酷是一项极限运动，对机器人特别是四足机器狗来说，更是一项巨大的挑战，需要在复杂的环境中快速克服各种障碍。一些研究尝试使用参考动物数据或复杂的奖励，但这些方法生成的「跑酷」技能要么多样但盲目，要么基于视觉但特定于场景。然而，自主跑酷需要机器人学习基于视觉且多样化的通用技能，以感知各种场景并迅速做出反应。

2023-09-19

3320

RLHF vs RL「AI」F，谷歌实证：大模型训练中人类反馈可被AI替代

人工智能强化学习模型数据原理

根据人类反馈的强化学习（RLHF）是一种对齐语言模型与人类偏好的有效技术，而且其被认为是 ChatGPT 和 Bard 等现代对话语言模型的成功的关键驱动因素之一。通过使用强化学习（RL）进行训练，语言模型可以优化用于复杂的序列级目标 —— 使用传统的监督式微调时，这些目标不是轻易可微的。

2023-09-08

4240

刺激，无人机竞速超越顶级人类玩家，强化学习再登Nature封面

swift 强化学习模型系统优化

这架自主控制无人机是由来自苏黎世大学的研究团队设计研发的 Swift 系统，研究成果登上了最新一期的《Nature》杂志封面。

2023-09-08

1440

DeepMind新研究：ReST让大模型与人类偏好对齐，比在线RLHF更有效

强化学习 rest 模型数据算法

这几个月以来，我们已经见证了大型语言模型（LLM）在生成高质量文本和解决众多语言任务方面出色的能力。然而，LLM 又面临这样一个困境，即产生的输出很大程度上与人类偏好并不一致。如果没有适当的对齐，语言模型可能输出不安全的内容。此外，对齐 LLM 还有助于改善下游任务。

2023-09-08

2320

大猩猩也会玩《我的世界》了，看一遍视频就能get新技能

游戏强化学习测试技巧视频

在教会 GPT-4 玩《我的世界》（Minecraft）之后，人类也教会了大猩猩玩这款游戏。

2023-09-08

1190

直接用GPT-4控制空调，微软免训练方法让LLM迈向工业控制

强化学习 gpt 基础模型 LLM

随着大型语言模型（LLM）技术的日渐成熟，其应用范围正在不断扩大。从智能写作到搜索引擎，LLM 的应用潜力正在一点点被挖掘。

2023-09-08

1800

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态