首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

智谱AI再升级,开源CogVLM2视频理解模型

近日,清华大学的研究团队公布了一项重要成果——一款名为CogVLM2-Video的新型视频理解模型。

传统上,视频理解模型依赖于帧平均和视频标记压缩技术,这虽然有助于处理海量数据,但不可避免地造成了时间信息的损失。

此外,专门针对时间问答的数据集模型往往局限于特定格式和领域,难以适应更广泛的问答需求。

为了解决这些问题,研究者们提出了创新性的解决方案,构建了一个包含3万条时间相关问答的数据集,并将之融入到模型训练中。

通过在输入视频帧时加入时间戳,CogVLM2-Video模型能够更精准地捕捉每帧画面所对应的时间点,这大大增强了模型在时间定位和关键时刻识别方面的能力。

这种时间感知的增强,使得模型在开放域问答中的表现超越了同类产品,同时具备了处理时间感知问答的功能。

为了降低高质量视频问答和时间定位数据的标注成本,研究团队设计了一套自动化数据生成流程。

这一流程先使用先进的图像理解模型对视频进行帧级解析,再借助大型语言模型进行数据筛选与生成。

例如,上传视频让AI描述视频内容。

通过自动化数据处理和大规模训练,模型在公共基准上的表现得到了显著提高,且能够应对开放域的问答挑战。

得益于这一系列创新,研究团队成功创建了丰富的Temporal Grounding Question and Answer (TQA)数据,极大地促进了视频理解模型在时间敏感问答方面的进步。

CogVLM2-Video的出现,不仅展示了视频理解技术的前沿发展,还预示着视频生成、摘要等应用领域的发展,人工智能在多模态理解和交互领域有较大的潜力。

目前,该模型的源代码已在GitHub上公开,项目网站提供了详细的模型介绍和技术文档,同时在线试用平台也让用户体验到了模型的强大性能。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O78bBjAl7nuEK4XG3M0Yn07Q0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券