视频理解

文章/答案/技术大牛

发布

首页标签视频理解

#视频理解

多模态 AI 能力，全维度识别视频标签

VideoSeek 长视频理解 Agent : 让 GPT-5 在长视频理解上再提 10 个点的秘密

唐国梁Tommy 4天前2026-06-25 21:34:26

整体来看，VideoSeek 给出了一个清晰的设计范式：用结构化工具 + 推理循环替代暴力采帧，而不是简单堆上下文长度。对于正在构建视频理解系统的工程师，这套工...

7500

视频理解太慢？VITA"秒级理解"的技术原理

gavin1024 5天前2026-06-24 11:20:00

VITA多模态理解模型基于原生多模态大模型技术，在单个模型内完成端到端的多模态内容理解，助力企业提升视频理解效率。前往腾讯云TokenHub平台，使用VITA的...

7610

视频理解中的时序建模：如何让AI理解"前因后果"？

gavin1024 6天前2026-06-23 16:55:04

时序建模是视频理解中的关键技术，它决定了AI是否能够真正理解视频中的"前因后果"。VITA 3.0通过原生多模态架构和统一训练流程，支持更长的上下文与更连续的时...

12310

VITA 3.0全新升级：视频理解、音频理解、图文理解三合一

gavin1024 6天前2026-06-23 11:15:04

VITA 3.0实现音视图文全模态统一理解，核心升级视频理解、音频理解、图文理解三项能力，为企业提供更强大的多模态内容理解服务。

15710

短视频 vs 长视频理解：模型设计有什么不同？

gavin1024 7天前2026-06-22 17:45:04

短视频理解和长视频理解在模型设计上的核心差异，主要体现在视觉Token生成策略、时序建模方式、以及音频-视觉融合时机三个方面。短视频理解更关注关键帧的精准捕捉与...

14210

视频理解技术详解：AI是如何"看懂"视频的？

gavin1024 7天前2026-06-22 14:10:04

视频理解是多模态AI的核心能力之一，让机器能够像人一样"看懂"视频内容。本文从技术原理出发，介绍视频理解的关键环节，并以VITA多模态理解模型为例，说明原生多模...

18110

从"多模型拼接"到"端到端原生多模态"：VITA 3.0 上线

腾讯云_内容识别

腾讯云智｜云产三-内容识别-产运 (已认证)

7天前2026-06-22 11:34:56

这是一个工程决策问题，不只是模型问题。本文围绕"架构选择"这条主线，把腾讯云 VITA 图像理解 3.0 与传统拼接工作流方案做一次系统对照，让"换"或"不换"...

13610

干掉AI初创公司真正的杀手锏：视频理解模型

匙亮旭 12天前2026-06-17 20:43:11

好久没写AI发展趋势这类随笔了，最近一直在做一些垂直领域的智能体，客户要求还挺高，感觉我们的方案不够Amazing，你单单用一些RAG思想来完成基本需求达成KP...

9710

VITA技术解析：原生多模态大模型如何重写内容理解

腾讯云_内容识别

腾讯云智｜云产三-内容识别-产运 (已认证)

17天前2026-06-12 17:12:42

本文面向多模态业务的开发者与技术决策者，从架构、能力、工程指标三个维度，系统说明 VITA 的技术选择与对应的工程价值。

16910

腾讯云上线多模态理解模型 VITA

腾讯云_内容识别

腾讯云智｜云产三-内容识别-产运 (已认证)

18天前2026-06-11 15:02:22

● 视频理解：支持对视频里的画面和音频做综合理解，单次支持30min的长视频处理，擅长做视频结构化、分镜拆解、内容摘要等任务

70250

大模型视频理解（Video Understanding）技术详解：从多模态 Embedding 到场景语义

gavin1024 28天前2026-06-01 18:05:04

视频理解正从标签识别跨越到场景语义。本文系统拆解多模态大模型如何对视频进行时序采样、跨模态对齐与场景推理，覆盖Embedding空间、注意力机制、时序建模与语义...

62510

先猜后验：四个Agent协作理解长视频，VideoMME三基准SOTA

CoovallyAIHub 2026-04-092026-04-09 17:04:20

长视频理解一直面临一个核心矛盾：视频越长，冗余信息越多，模型越容易在海量帧中"迷路"。现有的Agent方法大多采用反应式检索——先搜索相关片段，再根据搜到的内容...

27710

video-subtitle-remover（VSR）--开源AI去字幕方案深度解析

用户4563504 2026-03-022026-03-02 20:57:12

在视频剪辑、二创和影视加工场景里，“硬字幕”（内嵌到画面里的字幕）一直是特别棘手的问题：

3.3K11

视频理解+开放网络搜索=首个视频Deep Research评测基准

新智元 2026-01-262026-01-26 18:05:04

试想这样一个场景：你看到视频中博物馆的一个展品，想知道「该博物馆推荐的展品中，距离这个展品最近的那个，其注册编号是多少？」

30810

基于 YOLOv8+DeepSORT 的高精准 AI 客流统计技术实现与优化

思通数科 2026-01-042026-01-04 14:46:40

基于AI视觉技术构建的客流统计系统，通过算法优化与软硬件协同，实现了客流数据的精准采集，提供了可靠的技术支撑。

68110

顶刊TPAMI｜多模态视频理解领域重磅数据更新：MeViSv2发布

机器之心 2025-12-312025-12-31 13:00:29

近日，多模态视频理解领域迎来重磅更新！由复旦大学、上海财经大学、南洋理工大学联合打造的 MeViSv2 数据集正式发布，并已被顶刊 IEEE TPAMI 录用。

38810

#视频理解

VideoSeek 长视频理解 Agent : 让 GPT-5 在长视频理解上再提 10 个点的秘密

视频理解太慢？VITA"秒级理解"的技术原理

视频理解中的时序建模：如何让AI理解"前因后果"？

VITA 3.0全新升级：视频理解、音频理解、图文理解三合一

短视频 vs 长视频理解：模型设计有什么不同？

视频理解技术详解：AI是如何"看懂"视频的？

从"多模型拼接"到"端到端原生多模态"：VITA 3.0 上线

干掉AI初创公司真正的杀手锏：视频理解模型

VITA技术解析：原生多模态大模型如何重写内容理解

腾讯云上线多模态理解模型 VITA

大模型视频理解（Video Understanding）技术详解：从多模态 Embedding 到场景语义

先猜后验：四个Agent协作理解长视频，VideoMME三基准SOTA

video-subtitle-remover（VSR）--开源AI去字幕方案深度解析

视频理解+开放网络搜索=首个视频Deep Research评测基准

基于 YOLOv8+DeepSORT 的高精准 AI 客流统计技术实现与优化

顶刊TPAMI｜多模态视频理解领域重磅数据更新：MeViSv2发布

相关产品

热门专栏

量子位

媒矿工厂

新智元

计算机视觉战队

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐