新智元-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

新智元

专栏成员

8495

文章

6224629

阅读量

207

订阅数

LeCun新作：分层世界模型，数据驱动的人型机器人控制

强化学习机器人模型数据算法

不过，要想像人类一样思考和行动，对于机器人，特别是人型机器人来说，仍是个艰巨的工程问题。

2024-06-05

1350

Science Robotics封面！DeepMind强化学习打造超一流机器人球员

robotics 代理游戏强化学习机器人

AI和机器人专家的长远目标，是创造出具有一般具身智能的代理，它们能够像动物或人类一样，在物理世界中灵活、巧妙地行动。

2024-04-13

1900

「大模型+强化学习」最新综述！港中文深圳130余篇论文：详解四条主流技术路线

代理函数论文模型强化学习

虽然RL在允许大量试错的复杂电子游戏环境中实现了超越人类的决策能力（例如王者荣耀，Dota 2等），但很难在包含大量自然语言和视觉图像的现实复杂应用中落地，原因包括但不限于：数据获取困难、样本利用率低、多任务学习能力差、泛化性差、稀疏奖励等。

2024-04-12

1.3K0

刷榜「代码生成」任务！复旦等发布StepCoder框架：从编译器反馈信号中强化学习

模型优化强化学习编译器框架

大型语言模型（LLMs）的发展极大地推动了代码生成领域的发展，之前有工作将强化学习（RL）与编译器的反馈信号集成在一起，用于探索LLMs的输出空间，以提高代码生成质量。

2024-03-25

2000

可控核聚变新里程碑！AI成功预测等离子体撕裂登Nature，清洁能源「圣杯」更近一步

神经网络强化学习模型数据算法

而最近，普林斯顿团队用AI提前300毫秒预测了核聚变等离子不稳定态，这个时间，就足够约束磁场调整应对等离子体的逃逸！

2024-02-26

1790

OpenAI神秘Q*项目解密！诞生30+年「Q学习」算法引全球网友终极猜想

人工智能强化学习 openai 数据算法

刚刚过去的一天，OpenAI被爆出惊天内幕：一个名为Q*（Q-Star）的项目已现AGI雏形。

2023-11-24

1.4K0

北大全新「机械手」算法：辅助花式抓杯子，GTX 1650实现150fps推断｜NeurIPS 2023

强化学习论文模型数据算法

北京大学董豪团队通过将扩散模型和强化学习结合，使机械手能根据人手腕部的移动轨迹，自适应的抓取物体的不同部位，满足人类多样化的抓取需求，目前该工作已被NeurIPS 2023接收。

2023-11-19

1960

机器人瓦力来了！迪士尼亮出新机器人，用RL学习走路，还能进行社交互动

强化学习机器人动画开发系统

这个可爱的小机器人由迪士尼研究团队开发，在底特律举行的2023年IEEE/RSJ智能机器人和系统国际会议（IROS）上被展示。

2023-10-20

2540

RLHF再也不需要人类了！谷歌团队研究证明，AI标注已达人类水平

人工智能强化学习论文模型数据

谷歌团队的最新研究提出了，用大模型替代人类，进行偏好标注，也就是AI反馈强化学习（RLAIF）。

2023-09-09

3540

用多模态世界模型预测未来！UC伯克利全新AI智能体，精确理解人类语言，刷新SOTA

人工智能强化学习架构模型数据

但人类大部分时间的语言表达，却远远超出了指令的范围。比如：「我们好像没有牛奶了」......

2023-09-09

2340

无需人类反馈即可对齐！田渊栋团队新作RLCD：无害型、有益性、大纲写作全面超越基线模型

强化学习模型设计数据性能

随着大模型的能力越来越强，如何低成本地让模型的输出更符合人类的偏好以及社会的公共价值观，就显得尤为重要。

2023-09-09

2170

「人造太阳」精准放电！DeepMind实现AI可控核聚变新突破

强化学习迁移学习函数网络性能

秘密研发3年，DeepMind去年宣称，首次成功用AI控制「托卡马克」内部等离子体。其重磅成果登上Nature。

2023-08-07

2830

2023 ICML大会来了！一文速览谷歌DeepMind的最新研究

机器学习人工智能强化学习论文模型

2023年的国际机器学习大会（International Conferenceon Machine Learning，简称ICML）在夏威夷檀香山举办。

2023-08-07

3270

一文看尽系列：分层强化学习(HRL)经典论文全面总结

强化学习变量函数论文状态机

---- 新智元报道来源：深度强化学习实验室编辑：SF 【新智元导读】在解决一个复杂问题时，我们往往会将其分解为若干个容易解决的子问题，分而治之，分层的思想正是来源于此。分层强化算是强化学习领域比较流行的研究方向，每年顶会论文中都有一定比例的分层论文。分层主要解决的是稀疏reward的问题，实际的强化问题往往reward很稀疏，再加上庞大的状态空间和动作空间组合，导致直接硬训往往训不出来，遇到头铁的agent更是如此。个人理解目前分层的解决手段大体分两种，一种是基于目标的(goal-re

2023-05-22

1.5K0

丘成桐拉来又一菲尔茨奖得主全职加盟清华！年轻数学家40岁获奖，或带领军班、英才班本科生

强化学习 https 论文模型数学

---- 新智元报道来源：清华大学、知乎编辑：小匀【新智元导读】重磅消息，2018年菲尔兹奖得主、英国剑桥大学Caucher Birkar教授已成为清华大学丘成桐数学科学中心的一名教授。其个人主页已显示：正在清华大学执教。这也是继丘成桐之后，清华大学迎来的第二位菲尔茨奖得主。菲尔兹奖得主加盟清华大学，还是全职的那种！是谁是谁？近日，根据著名数学家、2018年菲尔兹奖得主Caucher Birkar的主页，他已加盟清华大学。剑桥大学 Caucher Birkar教授个人主页据悉，他

2023-05-22

6150

DeepMind大神Silver联手Sutton论证无限猴子原理：用强化学习就能搞定通用人工智能！

人工智能强化学习代理论文原理

---- 新智元报道来源：sciencedirect 编辑：Emil 好困【新智元导读】DeepMind最近研究了一下大自然，于是决定把「达尔文主义」应用在AI上面。首先给AI设定一个奖励，等AI学会如何把奖励做到最大化，它就是个出色的人工智能代理了。人工智能发展了这么久，终于产生了包括卷积，注意力，全连接等各种机制。有趣的是，最近的研究反而搞起了「这些机制我们都不需要」的创新。例如苹果发表的一篇论文表示Transformer不需要注意力机制。在这个方面，DeepMind也不甘落后，发

2023-05-22

2640

2022 QS世界大学排名发布！MIT霸榜，清北冲上全球前20

医疗强化学习论文模型苹果

---- 新智元报道来源：QS 编辑：小匀、亚新【新智元导读】全球知名排名机构QS发布《2022 QS世界大学排名》。新晋榜单中，排名前十的高校分别来自美国、英国和瑞士。MIT连续十年蝉联世界第一；TOP100榜单中共有6所内地高校上榜，清华大学依旧领先，世界第17名；北大位列第18名，这是其在2006年后，首次进入世界前20名。最新2022 QS世界大学排名来了！今年的排名共有1300所院校上榜，是QS有史以来规模最大的一次世界大学排名。在此次排名中，首次有2所中国大陆大学跻身世界TO

2023-05-22

3490

图灵奖得主Bengio又出新论文，用强化学习提升模型泛化性，Reddit崩溃：idea撞车了！

强化学习 reddit 工作论文模型

---- 新智元报道来源：reddit 编辑：LRS 【新智元导读】Bengio又发论文啦，这次瞄准机器学习的泛化性，用强化学习的方法平衡训练数据和测试数据之间的分布差异！Reddit小哥哭诉idea撞车？机器学习的一个重要研究就是提升模型的泛化性，并且在训练模型的时候一个假设，即训练集数据的分布和测试集相同。然而，模型面对的输入数据来自于真实世界，也就是不稳定的、会进化的、数据分布会随环境发生变化。虽然对人类来说，这个问题十分好解决，例如网络用语层出不穷，但每个人都能很快地接受，并熟练地

2023-05-22

1690

师从俞扬教授，中国团队再次夺冠！3个月登顶这个最难顶级决策类算法竞赛

人工智能强化学习设计算法系统

---- 新智元报道编辑：QQ、好困【新智元导读】L2RPN-ICAPS放榜啦！法国电网公司、美国电力研究学会、美国西北太平洋国家实验室等国际能源机构和著名学术机构联合举办，国内外数十支队伍参赛，多家研究机构参与，最终且看冠军花落谁家！随着全球能源危机的持续加剧，电力系统安全稳定问题日益突出，电网调控面临前所未有的挑战，如何借助人工智能新技术解决调控困境成为电网优化调度领域亟需解决的问题，为此全球顶级决策类竞赛L2RPN-ICAPS应运而生。 2021年是该系列竞赛的第四届，前三届参赛冠军依

2023-05-22

5280

强化学习AI能带你1打5吗？MIT新研究：AI并不是人类的最佳队友

人工智能游戏强化学习机器人算法

---- 新智元报道编辑：LRS 【新智元导读】强化学习的AI在对抗游戏中表现十分强力，但被虐的只有人类玩家。如果这么强的AI做了队友又该怎么样？MIT最近研究表明，AI和人类玩家之间的配合可以说是没有配合了，根本看不懂队友给的各种暗示信息！强化学习的AI在围棋、星际争霸、王者荣耀等游戏以绝对的优势碾压了人类玩家，也证明了思维能力可以通过模拟来得到。但如果这么强的AI成为了你的队友，能被带飞吗？ MIT林肯实验室的研究人员最近的在纸牌游戏Hanabi（花火）中人类和AI agenet之间的合

2023-05-22

2550

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态