首页
学习
活动
专区
工具
TVP
发布

新智元

专栏作者
8316
文章
5806057
阅读量
203
订阅数
Science Robotics封面!DeepMind强化学习打造超一流机器人球员
AI和机器人专家的长远目标,是创造出具有一般具身智能的代理,它们能够像动物或人类一样,在物理世界中灵活、巧妙地行动。
新智元
2024-04-13
1560
「大模型+强化学习」最新综述!港中文深圳130余篇论文:详解四条主流技术路线
虽然RL在允许大量试错的复杂电子游戏环境中实现了超越人类的决策能力(例如王者荣耀,Dota 2等),但很难在包含大量自然语言和视觉图像的现实复杂应用中落地,原因包括但不限于:数据获取困难、样本利用率低、多任务学习能力差、泛化性差、稀疏奖励等。
新智元
2024-04-12
2240
刷榜「代码生成」任务!复旦等发布StepCoder框架:从编译器反馈信号中强化学习
大型语言模型(LLMs)的发展极大地推动了代码生成领域的发展,之前有工作将强化学习(RL)与编译器的反馈信号集成在一起,用于探索LLMs的输出空间,以提高代码生成质量。
新智元
2024-03-25
1140
可控核聚变新里程碑!AI成功预测等离子体撕裂登Nature,清洁能源「圣杯」更近一步
而最近,普林斯顿团队用AI提前300毫秒预测了核聚变等离子不稳定态,这个时间,就足够约束磁场调整应对等离子体的逃逸!
新智元
2024-02-26
1300
OpenAI神秘Q*项目解密!诞生30+年「Q学习」算法引全球网友终极猜想
刚刚过去的一天,OpenAI被爆出惊天内幕:一个名为Q*(Q-Star)的项目已现AGI雏形。
新智元
2023-11-24
1.2K0
北大全新「机械手」算法:辅助花式抓杯子,GTX 1650实现150fps推断|NeurIPS 2023
北京大学董豪团队通过将扩散模型和强化学习结合,使机械手能根据人手腕部的移动轨迹,自适应的抓取物体的不同部位,满足人类多样化的抓取需求,目前该工作已被NeurIPS 2023接收。
新智元
2023-11-19
1680
机器人瓦力来了!迪士尼亮出新机器人,用RL学习走路,还能进行社交互动
这个可爱的小机器人由迪士尼研究团队开发,在底特律举行的2023年IEEE/RSJ智能机器人和系统国际会议(IROS)上被展示。
新智元
2023-10-20
2120
RLHF再也不需要人类了!谷歌团队研究证明,AI标注已达人类水平
谷歌团队的最新研究提出了,用大模型替代人类,进行偏好标注,也就是AI反馈强化学习(RLAIF)。
新智元
2023-09-09
2990
用多模态世界模型预测未来!UC伯克利全新AI智能体,精确理解人类语言,刷新SOTA
但人类大部分时间的语言表达,却远远超出了指令的范围。比如:「我们好像没有牛奶了」......
新智元
2023-09-09
1990
无需人类反馈即可对齐!田渊栋团队新作RLCD:无害型、有益性、大纲写作全面超越基线模型
随着大模型的能力越来越强,如何低成本地让模型的输出更符合人类的偏好以及社会的公共价值观,就显得尤为重要。
新智元
2023-09-09
1850
「人造太阳」精准放电!DeepMind实现AI可控核聚变新突破
秘密研发3年,DeepMind去年宣称,首次成功用AI控制「托卡马克」内部等离子体。其重磅成果登上Nature。
新智元
2023-08-07
2390
2023 ICML大会来了!一文速览谷歌DeepMind的最新研究
2023年的国际机器学习大会(International Conferenceon Machine Learning,简称ICML)在夏威夷檀香山举办。
新智元
2023-08-07
2470
一文看尽系列:分层强化学习(HRL)经典论文全面总结
---- 新智元报道   来源:深度强化学习实验室 编辑:SF 【新智元导读】在解决一个复杂问题时,我们往往会将其分解为若干个容易解决的子问题,分而治之,分层的思想正是来源于此。 分层强化算是强化学习领域比较流行的研究方向,每年顶会论文中都有一定比例的分层论文。分层主要解决的是稀疏reward的问题,实际的强化问题往往reward很稀疏,再加上庞大的状态空间和动作空间组合,导致直接硬训往往训不出来,遇到头铁的agent更是如此。 个人理解目前分层的解决手段大体分两种,一种是基于目标的(goal-re
新智元
2023-05-22
7420
丘成桐拉来又一菲尔茨奖得主全职加盟清华!年轻数学家40岁获奖,或带领军班、英才班本科生
---- 新智元报道   来源:清华大学、知乎 编辑:小匀 【新智元导读】重磅消息,2018年菲尔兹奖得主、英国剑桥大学Caucher Birkar教授已成为清华大学丘成桐数学科学中心的一名教授。其个人主页已显示:正在清华大学执教。这也是继丘成桐之后,清华大学迎来的第二位菲尔茨奖得主。 菲尔兹奖得主加盟清华大学,还是全职的那种! 是谁是谁? 近日,根据著名数学家、2018年菲尔兹奖得主Caucher Birkar的主页,他已加盟清华大学。 剑桥大学 Caucher Birkar教授个人主页 据悉,他
新智元
2023-05-22
5670
DeepMind大神Silver联手Sutton论证无限猴子原理:用强化学习就能搞定通用人工智能!
---- 新智元报道   来源:sciencedirect 编辑:Emil 好困 【新智元导读】DeepMind最近研究了一下大自然,于是决定把「达尔文主义」应用在AI上面。首先给AI设定一个奖励,等AI学会如何把奖励做到最大化,它就是个出色的人工智能代理了。 人工智能发展了这么久,终于产生了包括卷积,注意力,全连接等各种机制。 有趣的是,最近的研究反而搞起了「这些机制我们都不需要」的创新。 例如苹果发表的一篇论文表示Transformer不需要注意力机制。 在这个方面,DeepMind也不甘落后,发
新智元
2023-05-22
2360
2022 QS世界大学排名发布!MIT霸榜,清北冲上全球前20
---- 新智元报道   来源:QS 编辑:小匀、亚新 【新智元导读】全球知名排名机构QS发布《2022 QS世界大学排名》。新晋榜单中,排名前十的高校分别来自美国、英国和瑞士。MIT连续十年蝉联世界第一;TOP100榜单中共有6所内地高校上榜,清华大学依旧领先,世界第17名;北大位列第18名,这是其在2006年后,首次进入世界前20名。 最新2022 QS世界大学排名来了! 今年的排名共有1300所院校上榜,是QS有史以来规模最大的一次世界大学排名。 在此次排名中,首次有2所中国大陆大学跻身世界TO
新智元
2023-05-22
2340
图灵奖得主Bengio又出新论文,用强化学习提升模型泛化性,Reddit崩溃:idea撞车了!
---- 新智元报道   来源:reddit 编辑:LRS 【新智元导读】Bengio又发论文啦,这次瞄准机器学习的泛化性,用强化学习的方法平衡训练数据和测试数据之间的分布差异!Reddit小哥哭诉idea撞车? 机器学习的一个重要研究就是提升模型的泛化性,并且在训练模型的时候一个假设,即训练集数据的分布和测试集相同。 然而,模型面对的输入数据来自于真实世界,也就是不稳定的、会进化的、数据分布会随环境发生变化。 虽然对人类来说,这个问题十分好解决,例如网络用语层出不穷,但每个人都能很快地接受,并熟练地
新智元
2023-05-22
1440
师从俞扬教授,中国团队再次夺冠!3个月登顶这个最难顶级决策类算法竞赛
---- 新智元报道   编辑:QQ、好困 【新智元导读】L2RPN-ICAPS放榜啦!法国电网公司、美国电力研究学会、美国西北太平洋国家实验室等国际能源机构和著名学术机构联合举办,国内外数十支队伍参赛,多家研究机构参与,最终且看冠军花落谁家! 随着全球能源危机的持续加剧,电力系统安全稳定问题日益突出,电网调控面临前所未有的挑战,如何借助人工智能新技术解决调控困境成为电网优化调度领域亟需解决的问题,为此全球顶级决策类竞赛L2RPN-ICAPS应运而生。 2021年是该系列竞赛的第四届,前三届参赛冠军依
新智元
2023-05-22
4600
强化学习AI能带你1打5吗?MIT新研究:AI并不是人类的最佳队友
---- 新智元报道   编辑:LRS 【新智元导读】强化学习的AI在对抗游戏中表现十分强力,但被虐的只有人类玩家。如果这么强的AI做了队友又该怎么样?MIT最近研究表明,AI和人类玩家之间的配合可以说是没有配合了,根本看不懂队友给的各种暗示信息! 强化学习的AI在围棋、星际争霸、王者荣耀等游戏以绝对的优势碾压了人类玩家,也证明了思维能力可以通过模拟来得到。 但如果这么强的AI成为了你的队友,能被带飞吗? MIT林肯实验室的研究人员最近的在纸牌游戏Hanabi(花火)中人类和AI agenet之间的合
新智元
2023-05-22
2290
11年,从亏损6个亿到盈利6千万!DeepMind不止于AlphaGo和AlphaFold
---- 新智元报道   来源:网络 编辑:小咸鱼 【新智元导读】AI研究实验室DeepMind收购并开源了MuJoCo,多关节动力学(MuJoCo)可以为DeepMind的机器人研究提供新的动力。这篇文章将追溯DeepMind是如何一直在机器人领域努力突破极限的。 DeepMind 终于逆袭了! 这家总部位于伦敦的AI研究公司在过去几年亏损数亿美元后,有史以来第一次实现了盈利! DeepMind收购MuJoCo 在2020年,DeepMind实现了5960万美元的利润。  而仅在一年前的2019年
新智元
2023-05-22
3010
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战,赢鹅厂证书、公仔好礼!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档