SceneVerse是北京通用人工智能研究院构建的一个大规模3D视觉-语言数据集。该数据集包含了约6.8万个3D室内场景,以及与之对应的250万个视觉-语言对,以场景标题、物体标题和物体引用的形式呈现。SceneVerse整合了多个现有的真实和合成3D场景数据集(ARKitScenes、HM3D、Structured3D、ProcTHOR等),并通过人类注释以及大语言模型自动生成描述。该数据集不仅为研究人员构建精准的3D场景解析模型提供了宝贵资源,而且对于推动机器人导航、虚拟现实等前沿领域技术的进步具有重要意义。
详情请参见五号雷达:https://www.5radar.com/result?key=SceneVerse
领取专属 10元无门槛券
私享最新 技术干货