智谱AI再升级，开源CogVLM2视频理解模型

文章来源：企鹅号 - 晓得智能

近日，清华大学的研究团队公布了一项重要成果——一款名为CogVLM2-Video的新型视频理解模型。

传统上，视频理解模型依赖于帧平均和视频标记压缩技术，这虽然有助于处理海量数据，但不可避免地造成了时间信息的损失。

此外，专门针对时间问答的数据集模型往往局限于特定格式和领域，难以适应更广泛的问答需求。

为了解决这些问题，研究者们提出了创新性的解决方案，构建了一个包含3万条时间相关问答的数据集，并将之融入到模型训练中。

通过在输入视频帧时加入时间戳，CogVLM2-Video模型能够更精准地捕捉每帧画面所对应的时间点，这大大增强了模型在时间定位和关键时刻识别方面的能力。

这种时间感知的增强，使得模型在开放域问答中的表现超越了同类产品，同时具备了处理时间感知问答的功能。

为了降低高质量视频问答和时间定位数据的标注成本，研究团队设计了一套自动化数据生成流程。

这一流程先使用先进的图像理解模型对视频进行帧级解析，再借助大型语言模型进行数据筛选与生成。

例如，上传视频让AI描述视频内容。

通过自动化数据处理和大规模训练，模型在公共基准上的表现得到了显著提高，且能够应对开放域的问答挑战。

得益于这一系列创新，研究团队成功创建了丰富的Temporal Grounding Question and Answer (TQA)数据，极大地促进了视频理解模型在时间敏感问答方面的进步。

CogVLM2-Video的出现，不仅展示了视频理解技术的前沿发展，还预示着视频生成、摘要等应用领域的发展，人工智能在多模态理解和交互领域有较大的潜力。

目前，该模型的源代码已在GitHub上公开，项目网站提供了详细的模型介绍和技术文档，同时在线试用平台也让用户体验到了模型的强大性能。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货