潮新闻客户端 记者 张云山
在GTC2025全球大会上,群核科技宣布开源其空间理解模型SpatialLM,这一突破性技术让机器首次真正“看懂”物理世界。仅凭一段普通视频,SpatialLM即可生成物理精确的3D场景布局,为具身智能机器人构建接近真实的虚拟训练场,或将改写AI与物理世界交互的规则。
群核科技宣布开源其空间理解模型SpatialLM
让机器“睁开双眼”:从视频到3D世界的魔法
传统大语言模型虽能处理文本和图像,却难以理解三维空间的几何关系。而SpatialLM通过分析视频中的点云数据,精准识别墙壁、门窗等结构元素,甚至标注带语义的物体边界框,如同为机器安装“空间视觉”。与Meta需依赖定制硬件的SceneScript不同,SpatialLM支持手机等普通相机输入,通用性更强。更关键的是,其输出的不仅是数据,更是可交互的自然语言描述,未来甚至能通过对话调整场景——这为机器人理解人类指令铺平道路。
数字道场:1段视频衍生亿万训练场景
“真正的智能训练需要海量物理正确的数据。”群核科技董事长黄晓煌指出,SpatialLM与空间智能平台SpatialVerse正形成闭环生态:现实视频经SpatialLM转化为结构化虚拟场景,再通过SpatialVerse的合成引擎泛化成亿万级新场景。例如,一段厨房视频可衍生出不同布局的千万个“数字厨房”,机器人在此反复练习开关冰箱、摆放餐具,甚至应对突发状况。这种“现实-虚拟-现实”的循环,既突破真机采集的成本瓶颈,又缩小仿真与现实的“数据鸿沟”。
降低90%训练门槛:开源生态催化行业爆发
此次开源覆盖HuggingFace、GitHub等主流平台,开发者可直接调用SpatialLM进行场景微调。对于中小型企业,这相当于获得顶级实验室的空间认知框架,无需从零构建模型。目前,群核科技已与硅谷头部企业在内的多家公司合作,将技术应用于家庭服务、工业机器人等领域。黄晓煌预言:“算力、算法、数据正同步突破,具身智能奇点将至。开源不是终点,而是行业共同进化的起点。”
群核科技宣布开源其空间理解模型SpatialLM
未来:从认知到行动的智能跃迁
群核科技的野心不止于“看懂”。去年发布的SpatialVerse已积累海量可交互场景数据,机器人能在虚拟空间中学习叠被子、避障等复杂操作。而SpatialLM下一阶段将融合自然语言交互,让人用一句话修改场景设定。黄晓煌强调:“我们要搭建从空间认知到行动决策的完整训练链,这才是具身智能的真正基础。”
这场开源行动,或许正悄然推开机器人革命的大门。当物理世界与数字道场无缝连接,机器智能的“觉醒”可能比预期来得更快。
“转载请注明出处”
领取专属 10元无门槛券
私享最新 技术干货