天才少年“稚晖君”推首个通用具身基座模型智元已量产下线1000台机器人

文章来源：企鹅号 - 深网

文丨雅萱

编辑丨叶锦言

出品丨深网·腾讯新闻小满工作室

继“稚晖君”（彭志辉）在微博预热“下周有好东西发布”后，智元机器人于今天发布首个通用具身基座模型——智元启元大模型（GO-1），首次实现从人类视频学习技能、跨场景自主规划、多形态机器人适配等突破，相当于给人形机器人装了个“大脑”。

据智元机器人官方信息显示，GO-1大模型有四大特点：

人类视频学习：GO-1大模型可以结合互联网视频和真实人类示范进行学习，增强模型对人类行为的理解，更好地为人类服务。

小样本快速泛化：GO-1大模型具有强大的泛化能力，能够在极少数据甚至零样本下泛化到新场景、新任务，降低了具身模型的使用门槛，使得后训练成本非常低。

一脑多形：GO-1大模型是通用机器人策略模型，能够在不同机器人形态之间迁移，快速适配到不同本体，群体升智。

持续进化：GO-1大模型搭配智元一整套数据回流系统，可以从实际执行遇到的问题数据中持续进化学习，越用越聪明。

简单来说，搭载GO-1大模型的智能机器人，不仅能通过观看网上的视频（比如倒水或拿东西的动作）自学成才，还可以在少数据甚至零样本下适应新任务和环境，节省训练成本。此外，当机器人执行任务时遇到问题（比如抓取失败），会自动记录数据并优化模型，越用越聪明。

智元启元大模型（GO-1）核心是基于智元提出的全新ViLLA（Vision-Language-Latent-Action）架构，由VLM（多模态大模型）+ MoE（混合专家）组成。其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力，MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作数据获得通用的动作理解能力，MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力。

与现有的VLA（Vision-Language-Action）架构相比，ViLLA通过预测Latent Action Tokens（隐式动作标记），弥合了图像-文本输入与机器人执行动作之间的鸿沟，能有效利用高质量的AgiBot World数据集以及互联网大规模异构视频数据，增强策略的泛化能力。

简单来说，即GO-1的ViLLA架构（视觉-语言-隐式动作）新增“隐式规划器”，通过预测中间动作标记（Latent Action Tokens）作为过渡，将人类视频中的动作模式转化为机器人可理解的规划链，再通过“动作专家”生成精细动作。

公开资料显示，智元机器人成立于2023年2月，由90后“天才少年”彭志辉与上海交大教授闫维新共同创办，前者负责人形机器人的“大脑”，后者负责人形机器人的“身体”。

2023年8月18日，智元机器人发布了第一代原型机远征A1；2024年8月，智元机器人推出包括交互服务机器人远征A2、柔性智造机器人远征A2-W、重载特种机器人远征A2-Max、全栈开源机器人灵犀X1、专业数采机器人灵犀X1-W等第二代商用人形机器人产品。

彭志辉曾透露，智元机器人2024年预估发货量将达到300台左右，其中双足 200台左右，轮式 100台左右。而据智元具身研究中心常务主任任广辉介绍，截至目前，智元机器人已经量产下线1000台机器人。

发表于: 2天前2025-03-10 17:26:02
原文链接：https://page.om.qq.com/page/OVBYC7POugI7KGwRguX1pTew0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

天才少年“稚晖君”推首个通用具身基座模型智元已量产下线1000台机器人

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

天才少年“稚晖君”推首个通用具身基座模型 智元已量产下线1000台机器人

相关快讯

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

天才少年“稚晖君”推首个通用具身基座模型智元已量产下线1000台机器人