群核科技开源空间智能“钥匙”，1段视频解锁亿万虚拟训练场

文章来源：企鹅号 - 潮新闻

潮新闻客户端记者张云山

在GTC2025全球大会上，群核科技宣布开源其空间理解模型SpatialLM，这一突破性技术让机器首次真正“看懂”物理世界。仅凭一段普通视频，SpatialLM即可生成物理精确的3D场景布局，为具身智能机器人构建接近真实的虚拟训练场，或将改写AI与物理世界交互的规则。

群核科技宣布开源其空间理解模型SpatialLM

让机器“睁开双眼”：从视频到3D世界的魔法

传统大语言模型虽能处理文本和图像，却难以理解三维空间的几何关系。而SpatialLM通过分析视频中的点云数据，精准识别墙壁、门窗等结构元素，甚至标注带语义的物体边界框，如同为机器安装“空间视觉”。与Meta需依赖定制硬件的SceneScript不同，SpatialLM支持手机等普通相机输入，通用性更强。更关键的是，其输出的不仅是数据，更是可交互的自然语言描述，未来甚至能通过对话调整场景——这为机器人理解人类指令铺平道路。

数字道场：1段视频衍生亿万训练场景

“真正的智能训练需要海量物理正确的数据。”群核科技董事长黄晓煌指出，SpatialLM与空间智能平台SpatialVerse正形成闭环生态：现实视频经SpatialLM转化为结构化虚拟场景，再通过SpatialVerse的合成引擎泛化成亿万级新场景。例如，一段厨房视频可衍生出不同布局的千万个“数字厨房”，机器人在此反复练习开关冰箱、摆放餐具，甚至应对突发状况。这种“现实-虚拟-现实”的循环，既突破真机采集的成本瓶颈，又缩小仿真与现实的“数据鸿沟”。

降低90%训练门槛：开源生态催化行业爆发

此次开源覆盖HuggingFace、GitHub等主流平台，开发者可直接调用SpatialLM进行场景微调。对于中小型企业，这相当于获得顶级实验室的空间认知框架，无需从零构建模型。目前，群核科技已与硅谷头部企业在内的多家公司合作，将技术应用于家庭服务、工业机器人等领域。黄晓煌预言：“算力、算法、数据正同步突破，具身智能奇点将至。开源不是终点，而是行业共同进化的起点。”

群核科技宣布开源其空间理解模型SpatialLM

未来：从认知到行动的智能跃迁

群核科技的野心不止于“看懂”。去年发布的SpatialVerse已积累海量可交互场景数据，机器人能在虚拟空间中学习叠被子、避障等复杂操作。而SpatialLM下一阶段将融合自然语言交互，让人用一句话修改场景设定。黄晓煌强调：“我们要搭建从空间认知到行动决策的完整训练链，这才是具身智能的真正基础。”

这场开源行动，或许正悄然推开机器人革命的大门。当物理世界与数字道场无缝连接，机器智能的“觉醒”可能比预期来得更快。

“转载请注明出处”

发表于: 1天前2025-03-19 16:28:17
原文链接：https://page.om.qq.com/page/OmZnYe3eb6237n1EqJkiwggA0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

群核科技开源空间智能“钥匙”，1段视频解锁亿万虚拟训练场

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐