首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

国泰君安:智元推出通用具身基座大模型GO-1 提升成功率

财中社3月11日电国泰君安发布机器人行业事件点评。智元发布首个通用具身基座模型Genie Operator-1。3月10日,智元发布首个通用具身基座大模型GO-1,开创性地提出了VisionLanguage-Latent-Action (ViLLA)架构,该架构由VLM(多模态大模型)+ MoE(混合专家)组成,其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作视频数据获得通用的动作理解能力,MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力,三者环环相扣,实现了可以利用人类视频学习,完成小样本快速泛化,降低了具身智能门槛,并成功部署到智元多款机器人本体,持续进化,将具身智能推上了一个新台阶。

GO-1:VLA进化到ViLLA。为了有效利用高质量的AgiBot World数据集以及互联网大规模异构视频数据,增强策略的泛化能力,智元提出了ViLLA这一架构。在推理时,VLM、Latent Planner和ActionExpert三者协同工作。其中LAM(隐式动作模型)主要用于获取当前帧和历史帧之间Latent Actions的Groundtruth(真值),它由编码器和解码器组成。Latent Planner负责预测这些离散的Latent ActionTokens,它与VLM主干网络共享相同的Transformer结构,同时引入Action Expert。结果显示,相比已有的最优模型,GO-1成功率大幅领先,平均成功率提高了32%(46%->78%)。

GO-1的推出标志着具身智能向通用化、开放化、智能化加速迈进。GO-1大模型可泛化应用到各类的环境和物品中,快速适应新任务、学习新技能。同时,它还支持部署到不同的机器人本体,高效地完成落地,并在实际的使用中持续不断地快速进化,包括:1)从单一任务到多种任务;2)从封闭环境到开放世界;3)从预设程序到指令泛化。GO-1大模型将加速具身智能的普及,在商业、工业、家庭等多领域发挥更大的作用,通向更加通用全能的智能未来。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OndqujN_zdTKVv3GzLK8hrVQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券