文丨雅萱
编辑丨叶锦言
出品丨深网·腾讯新闻小满工作室
继“稚晖君”(彭志辉)在微博预热“下周有好东西发布”后,智元机器人于今天发布首个通用具身基座模型——智元启元大模型(GO-1),首次实现从人类视频学习技能、跨场景自主规划、多形态机器人适配等突破,相当于给人形机器人装了个“大脑”。
据智元机器人官方信息显示,GO-1大模型有四大特点:
人类视频学习:GO-1大模型可以结合互联网视频和真实人类示范进行学习,增强模型对人类行为的理解,更好地为人类服务。
小样本快速泛化:GO-1大模型具有强大的泛化能力,能够在极少数据甚至零样本下泛化到新场景、新任务,降低了具身模型的使用门槛,使得后训练成本非常低。
一脑多形:GO-1大模型是通用机器人策略模型,能够在不同机器人形态之间迁移,快速适配到不同本体,群体升智。
持续进化:GO-1大模型搭配智元一整套数据回流系统,可以从实际执行遇到的问题数据中持续进化学习,越用越聪明。
简单来说,搭载GO-1大模型的智能机器人,不仅能通过观看网上的视频(比如倒水或拿东西的动作)自学成才,还可以在少数据甚至零样本下适应新任务和环境,节省训练成本。此外,当机器人执行任务时遇到问题(比如抓取失败),会自动记录数据并优化模型,越用越聪明。
智元启元大模型(GO-1)核心是基于智元提出的全新ViLLA(Vision-Language-Latent-Action)架构,由VLM(多模态大模型)+ MoE(混合专家)组成。其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作数据获得通用的动作理解能力,MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力。
与现有的VLA(Vision-Language-Action)架构相比,ViLLA通过预测Latent Action Tokens(隐式动作标记),弥合了图像-文本输入与机器人执行动作之间的鸿沟,能有效利用高质量的AgiBot World数据集以及互联网大规模异构视频数据,增强策略的泛化能力。
简单来说,即GO-1的ViLLA架构(视觉-语言-隐式动作)新增“隐式规划器”,通过预测中间动作标记(Latent Action Tokens)作为过渡,将人类视频中的动作模式转化为机器人可理解的规划链,再通过“动作专家”生成精细动作。
公开资料显示,智元机器人成立于2023年2月,由90后“天才少年”彭志辉与上海交大教授闫维新共同创办,前者负责人形机器人的“大脑”,后者负责人形机器人的“身体”。
2023年8月18日,智元机器人发布了第一代原型机远征A1;2024年8月,智元机器人推出包括交互服务机器人远征A2、柔性智造机器人远征A2-W、重载特种机器人远征A2-Max、全栈开源机器人灵犀X1、专业数采机器人灵犀X1-W等第二代商用人形机器人产品。
彭志辉曾透露,智元机器人2024年预估发货量将达到300台左右,其中双足 200台 左右,轮式 100台左右 。而据智元具身研究中心常务主任任广辉介绍,截至目前,智元机器人已经量产下线1000台机器人。
领取专属 10元无门槛券
私享最新 技术干货