首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

智元启元大模型GO-1发布:ViLLA架构开启具身智能新篇章

近日,智元机器人在其官方渠道宣布了一项重大突破,正式推出了业界首个通用具身基座模型——智元启元大模型(Genie Operator-1),这一创新成果标志着智元在人工智能领域的又一里程碑。

智元启元大模型的核心在于其独创的Vision-Language-Latent-Action(ViLLA)架构,这一架构的提出,为具身智能的发展开辟了新的路径。ViLLA架构由两大核心组件构成:多模态大模型VLM与混合专家系统MoE。

VLM组件通过深度挖掘海量互联网图文数据,赋予了智元启元大模型卓越的通用场景感知和语言理解能力。它能够准确识别并理解图像中的信息,同时与文本数据进行高效融合,实现了对复杂场景的全面理解。

而MoE系统则进一步增强了智元启元大模型的动作理解与执行能力。其中,Latent Planner(隐式规划器)通过分析大量跨本体和人类操作视频数据,掌握了通用的动作规划逻辑。与此同时,Action Expert(动作专家)则依托百万级真机数据训练,具备了精细且高效的动作执行能力。

ViLLA架构中的这三大组件相互协同,形成了一个高效且智能的系统。它不仅能够从人类视频中学习并快速泛化到小样本场景,还显著降低了具身智能的应用门槛。这一创新成果已经成功应用于智元的多款机器人本体上,展现了强大的实际应用潜力。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OiECQsL89mouFWRlCXwQinKw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券