首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

群核科技开源空间智能“钥匙”,1段视频解锁亿万虚拟训练场

潮新闻客户端 记者 张云山

在GTC2025全球大会上,群核科技宣布开源其空间理解模型SpatialLM,这一突破性技术让机器首次真正“看懂”物理世界。仅凭一段普通视频,SpatialLM即可生成物理精确的3D场景布局,为具身智能机器人构建接近真实的虚拟训练场,或将改写AI与物理世界交互的规则。

群核科技宣布开源其空间理解模型SpatialLM

让机器“睁开双眼”:从视频到3D世界的魔法

传统大语言模型虽能处理文本和图像,却难以理解三维空间的几何关系。而SpatialLM通过分析视频中的点云数据,精准识别墙壁、门窗等结构元素,甚至标注带语义的物体边界框,如同为机器安装“空间视觉”。与Meta需依赖定制硬件的SceneScript不同,SpatialLM支持手机等普通相机输入,通用性更强。更关键的是,其输出的不仅是数据,更是可交互的自然语言描述,未来甚至能通过对话调整场景——这为机器人理解人类指令铺平道路。

数字道场:1段视频衍生亿万训练场景

“真正的智能训练需要海量物理正确的数据。”群核科技董事长黄晓煌指出,SpatialLM与空间智能平台SpatialVerse正形成闭环生态:现实视频经SpatialLM转化为结构化虚拟场景,再通过SpatialVerse的合成引擎泛化成亿万级新场景。例如,一段厨房视频可衍生出不同布局的千万个“数字厨房”,机器人在此反复练习开关冰箱、摆放餐具,甚至应对突发状况。这种“现实-虚拟-现实”的循环,既突破真机采集的成本瓶颈,又缩小仿真与现实的“数据鸿沟”。

降低90%训练门槛:开源生态催化行业爆发

此次开源覆盖HuggingFace、GitHub等主流平台,开发者可直接调用SpatialLM进行场景微调。对于中小型企业,这相当于获得顶级实验室的空间认知框架,无需从零构建模型。目前,群核科技已与硅谷头部企业在内的多家公司合作,将技术应用于家庭服务、工业机器人等领域。黄晓煌预言:“算力、算法、数据正同步突破,具身智能奇点将至。开源不是终点,而是行业共同进化的起点。”

群核科技宣布开源其空间理解模型SpatialLM

未来:从认知到行动的智能跃迁

群核科技的野心不止于“看懂”。去年发布的SpatialVerse已积累海量可交互场景数据,机器人能在虚拟空间中学习叠被子、避障等复杂操作。而SpatialLM下一阶段将融合自然语言交互,让人用一句话修改场景设定。黄晓煌强调:“我们要搭建从空间认知到行动决策的完整训练链,这才是具身智能的真正基础。”

这场开源行动,或许正悄然推开机器人革命的大门。当物理世界与数字道场无缝连接,机器智能的“觉醒”可能比预期来得更快。

“转载请注明出处”

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OmZnYe3eb6237n1EqJkiwggA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券