首页
学习
活动
专区
工具
TVP
发布

机器之心

专栏作者
8931
文章
6283450
阅读量
277
订阅数
扩散模型如何构建新一代决策智能体?超越自回归,同时生成长序列规划轨迹
设想一下,当你站在房间内,准备向门口走去,你是通过自回归的方式逐步规划路径吗?实际上,你的路径是一次性整体生成的。
机器之心
2024-03-18
1250
20分钟学会装配电路板!开源SERL框架精密操控成功率100%,速度三倍于人类
近年来,机器人强化学习技术领域取得显著的进展,例如四足行走,抓取,灵巧操控等,但大多数局限于实验室展示阶段。将机器人强化学习技术广泛应用到实际生产环境仍面临众多挑战,这在一定程度上限制了其在真实场景的应用范围。强化学习技术在实际应用的过程中,任需克服包括奖励机制设定、环境重置、样本效率提升及动作安全性保障等多重复杂的问题。业内专家强调,解决强化学习技术实际落地的诸多难题,与算法本身的持续创新同等重要。
机器之心
2024-02-26
1080
性能提升、成本降低,这是分布式强化学习算法最新研究进展
深度强化学习(Deep Reinforcement Learning,DRL)是一种公认的解决连续决策问题的有效技术。为了应对 DRL 的数据低效(data inefficiency)问题,受到分布式机器学习技术的启发,分布式深度强化学习 (distributed deep reinforcement learning,DDRL) 已提出并成功应用于计算机视觉和自然语言处理领域。有观点认为,分布式强化学习是深度强化学习走向大规模应用、解决复杂决策空间和长期规划问题的必经之路。
机器之心
2024-02-26
1620
谷歌提出全新RLHF方法:消除奖励模型,且无需对抗性训练
大型语言模型(LLM)的成功离不开「基于人类反馈的强化学习(RLHF)」。RLHF 可以大致可以分为两个阶段,首先,给定一对偏好和不偏好的行为,训练一个奖励模型,通过分类目标为前者分配更高的分数。然后通过某种强化学习算法优化这个奖励函数。然而,奖励模型的关键要素可能会产生一些不良影响。
机器之心
2024-02-26
1380
普林斯顿博士生高天宇指令微调进展速览:数据、算法和评估
图源:https://twitter.com/gaotianyu1350/status/1731651192026247435
机器之心
2024-01-23
1590
大模型+机器人,详尽的综述报告来了,多位华人学者参与
大模型的出色能力有目共睹,而如果将它们整合进机器人,则有望让机器人拥有一个更加智能的大脑,为机器人领域带来新的可能性,比如自动驾驶、家用机器人、工业机器人、辅助机器人、医疗机器人、现场机器人和多机器人系统。
机器之心
2023-12-28
3690
NeurIPS 2023 Spotlight | 腾讯AI Lab绝悟新突破:在星际2灵活策略应对职业选手
实时策略游戏(RTS)以其复杂的游戏环境更贴近现实世界,一直是 AI 研究的焦点和挑战所在。《星际争霸 2》作为其中极具代表性的游戏,因其对资源收集、战术规划和对手分析的高实时要求,已成为业内广泛用于训练和验证 AI 决策能力的理想平台。早在 2018 年,腾讯 AI Lab 研发的 AI 就已击败游戏内最高难度的 AI。
机器之心
2023-12-20
1930
能总结经验、持续进化,上交把智能体优化参数的成本打下来了
大模型的出现引发了智能体设计的革命性变革,在 ChatGPT 及其插件系统问世后,对大模型智能体的设计和开发吸引了极大的关注。帮助完成预订、下单等任务,协助编写文案,自主从网络上搜索最新的知识与新闻等等,这种通用、强大的智能助理,让大模型强大的语义理解、推理能力将之变成了可能。
机器之心
2023-11-24
1490
斯坦福提出对比偏好学习:无需强化学习即可从人类反馈中学习
在模型与人类意图对齐方面,根据人类反馈的强化学习(RLHF)已经成为一大流行范式。通常来说,RLHF 算法的工作过程分为两个阶段:一、使用人类偏好学习一个奖励函数;二、通过使用强化学习优化所学习的奖励来对齐模型。
机器之心
2023-11-13
2570
让大模型自主探索开放世界,北大&智源提出训练框架LLaMA-Rider
大语言模型因其强大而通用的语言生成、理解能力,展现出了成为通用智能体的潜力。与此同时,在开放式的环境中探索、学习则是通用智能体的重要能力之一。因此,大语言模型如何适配开放世界是一个重要的研究问题。
机器之心
2023-11-07
2110
狂揽4k star,AI通过强化学习玩宝可梦,两万场后成功拿下
「口袋妖怪」是「宝可梦」的非官方译名。从 1996 年至今,它可以被分为数个世代,成为很多玩家心中的经典之作。游戏画风简单,但是身为策略游戏,其中包含的角色、属性、战术、体系等让这个游戏入门容易精通难。
机器之心
2023-10-24
2960
让人恐惧的是,机器狗已经能做这种事了
跑酷是一项极限运动,需要参与者以高度动态的方式跨越障碍,对于大多数时候「笨手笨脚」的机器人来说,这似乎是件遥不可及的事,不过最近在机器人控制领域里出现了一些技术突破的趋势。几周前,机器之心曾报道过一个使用强化学习方法让机器狗实现跑酷的研究,实现了不错的效果。
机器之心
2023-10-04
1930
Transformer+强化学习,谷歌DeepMind让大模型成为机器人感知世界的大脑
在开发机器人学习方法时,如果能整合大型多样化数据集,再组合使用强大的富有表现力的模型(如 Transformer),那么就有望开发出具备泛化能力且广泛适用的策略,从而让机器人能学会很好地处理各种不同的任务。比如说,这些策略可让机器人遵从自然语言指令,执行多阶段行为,适应各种不同环境和目标,甚至适用于不同的机器人形态。
机器之心
2023-09-21
4570
AI海洋中的海妖之歌:腾讯AI Lab大模型幻觉问题综述
大规模语言模型在众多下游任务中展现了惊人的能力,但它们在使用中仍然暴露了一些问题。其中,幻觉是目前影响大模型落地的重要问题之一。ChatGPT 的发布使学术界和工业界关注大模型实际落地的潜能,大量关于幻觉的工作也开始涌现。
机器之心
2023-09-19
5600
攀爬、跳跃、过窄缝,开源强化学习策略让机器狗能跑酷了
跑酷是一项极限运动,对机器人特别是四足机器狗来说,更是一项巨大的挑战,需要在复杂的环境中快速克服各种障碍。一些研究尝试使用参考动物数据或复杂的奖励,但这些方法生成的「跑酷」技能要么多样但盲目,要么基于视觉但特定于场景。然而,自主跑酷需要机器人学习基于视觉且多样化的通用技能,以感知各种场景并迅速做出反应。
机器之心
2023-09-19
3320
RLHF vs RL「AI」F,谷歌实证:大模型训练中人类反馈可被AI替代
根据人类反馈的强化学习(RLHF)是一种对齐语言模型与人类偏好的有效技术,而且其被认为是 ChatGPT 和 Bard 等现代对话语言模型的成功的关键驱动因素之一。通过使用强化学习(RL)进行训练,语言模型可以优化用于复杂的序列级目标 —— 使用传统的监督式微调时,这些目标不是轻易可微的。
机器之心
2023-09-08
4240
刺激,无人机竞速超越顶级人类玩家,强化学习再登Nature封面
这架自主控制无人机是由来自苏黎世大学的研究团队设计研发的 Swift 系统,研究成果登上了最新一期的《Nature》杂志封面。
机器之心
2023-09-08
1440
DeepMind新研究:ReST让大模型与人类偏好对齐,比在线RLHF更有效
这几个月以来,我们已经见证了大型语言模型(LLM)在生成高质量文本和解决众多语言任务方面出色的能力。然而,LLM 又面临这样一个困境,即产生的输出很大程度上与人类偏好并不一致。如果没有适当的对齐,语言模型可能输出不安全的内容。此外,对齐 LLM 还有助于改善下游任务。
机器之心
2023-09-08
2320
大猩猩也会玩《我的世界》了,看一遍视频就能get新技能
在教会 GPT-4 玩《我的世界》(Minecraft)之后,人类也教会了大猩猩玩这款游戏。
机器之心
2023-09-08
1190
直接用GPT-4控制空调,微软免训练方法让LLM迈向工业控制
随着大型语言模型(LLM)技术的日渐成熟,其应用范围正在不断扩大。从智能写作到搜索引擎,LLM 的应用潜力正在一点点被挖掘。
机器之心
2023-09-08
1800
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档