近日,清华大学的研究团队公布了一项重要成果——一款名为CogVLM2-Video的新型视频理解模型。
传统上,视频理解模型依赖于帧平均和视频标记压缩技术,这虽然有助于处理海量数据,但不可避免地造成了时间信息的损失。
此外,专门针对时间问答的数据集模型往往局限于特定格式和领域,难以适应更广泛的问答需求。
为了解决这些问题,研究者们提出了创新性的解决方案,构建了一个包含3万条时间相关问答的数据集,并将之融入到模型训练中。
通过在输入视频帧时加入时间戳,CogVLM2-Video模型能够更精准地捕捉每帧画面所对应的时间点,这大大增强了模型在时间定位和关键时刻识别方面的能力。
这种时间感知的增强,使得模型在开放域问答中的表现超越了同类产品,同时具备了处理时间感知问答的功能。
为了降低高质量视频问答和时间定位数据的标注成本,研究团队设计了一套自动化数据生成流程。
这一流程先使用先进的图像理解模型对视频进行帧级解析,再借助大型语言模型进行数据筛选与生成。
例如,上传视频让AI描述视频内容。
通过自动化数据处理和大规模训练,模型在公共基准上的表现得到了显著提高,且能够应对开放域的问答挑战。
得益于这一系列创新,研究团队成功创建了丰富的Temporal Grounding Question and Answer (TQA)数据,极大地促进了视频理解模型在时间敏感问答方面的进步。
CogVLM2-Video的出现,不仅展示了视频理解技术的前沿发展,还预示着视频生成、摘要等应用领域的发展,人工智能在多模态理解和交互领域有较大的潜力。
目前,该模型的源代码已在GitHub上公开,项目网站提供了详细的模型介绍和技术文档,同时在线试用平台也让用户体验到了模型的强大性能。
领取专属 10元无门槛券
私享最新 技术干货