机器人终于有了自己的“离线大脑”。
Google DeepMind团队首个可以完全在机器人本地运行的视觉-语言-动作(VLA)模型Gemini Robotics On-Device发布。
这个模型不仅能离线运行,还保持了相当强悍的操作能力,能遵循指令完成各种需要精细操作的任务。
支持从人形机器人到工业双臂机器人的多种机器人本体上部署,响应延迟还低到飞起。
此前3月份发布的Gemini Robotics虽然性能强大,但需要依赖云端计算。而这次的On-Device版本,直接把AI塞进了机器人的“大脑”里,彻底解决了网络延迟和连接不稳定的老大难问题。
团队把Gemini 2.0的多模态推理能力和真实世界理解能力,全都塞进了这个可以在机器人设备上运行的模型里。
由于模型独立于数据网络运行,它特别适合对延迟敏感的应用,并确保在网络间歇性或零连接的环境中也能稳定工作。
评测数据显示,On-Device版本在泛化性能测试中表现亮眼。在视觉泛化、语义理解和行为泛化等多个维度上,虽然比云端版本的Gemini Robotics略有差距,但已经大幅超越了之前最好的本地模型。
在处理分布外任务(out-of-distribution tasks)和复杂多步骤指令时,Gemini Robotics On-Device对比此前的本地模型也展现出了碾压级的优势。
这种指令跟随能力,让机器人真正能够理解人类的自然语言指令,而不是简单地执行预设程序。
如果说性能强悍只是基础,那么Gemini Robotics On-Device的适应能力才是真正的杀手锏。
这是谷歌首次开放VLA模型的微调功能。
开发者只需要50到100个演示样本,就能让模型适应全新的任务。在测试中,团队在七个不同难度的灵巧操作任务上进行了验证,包括给午餐盒拉拉链、抽卡片、倒沙拉酱等。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。