视频理解

文章/答案/技术大牛

发布

首页标签视频理解

#视频理解

多模态 AI 能力，全维度识别视频标签

视频孪生技术：概念定义、核心技术体系与创新应用研究

在路上ing 5天前2026-07-14 12:04:10

数字孪生（Digital Twin）作为连接物理世界与数字空间的重要技术体系，已广泛应用于智慧城市、智能制造、智慧交通、能源管理等领域。其核心是构建物理对象的数...

12010

agno v2.6.22发布：视频理解、搜索研究、超时机制、安全修复全面升级，一文看懂全部更新

福大大架构师每日一题 12天前2026-07-06 18:12:21

同时，“生成多模态文本嵌入”这一点也非常关键。它代表的不只是简单的视频读取，而是围绕视频内容形成可用于语义处理、检索或理解的文本表示能力。换句话说，这次更新并不...

10700

VideoSeek 长视频理解 Agent : 让 GPT-5 在长视频理解上再提 10 个点的秘密

唐国梁Tommy 23天前2026-06-25 21:34:26

整体来看，VideoSeek 给出了一个清晰的设计范式：用结构化工具 + 推理循环替代暴力采帧，而不是简单堆上下文长度。对于正在构建视频理解系统的工程师，这套工...

11700

视频理解太慢？VITA"秒级理解"的技术原理

gavin1024 25天前2026-06-24 11:20:00

VITA多模态理解模型基于原生多模态大模型技术，在单个模型内完成端到端的多模态内容理解，助力企业提升视频理解效率。前往腾讯云TokenHub平台，使用VITA的...

13310

视频理解中的时序建模：如何让AI理解"前因后果"？

gavin1024 25天前2026-06-23 16:55:04

时序建模是视频理解中的关键技术，它决定了AI是否能够真正理解视频中的"前因后果"。VITA 3.0通过原生多模态架构和统一训练流程，支持更长的上下文与更连续的时...

16510

VITA 3.0全新升级：视频理解、音频理解、图文理解三合一

gavin1024 26天前2026-06-23 11:15:04

VITA 3.0实现音视图文全模态统一理解，核心升级视频理解、音频理解、图文理解三项能力，为企业提供更强大的多模态内容理解服务。

23910

短视频 vs 长视频理解：模型设计有什么不同？

gavin1024 26天前2026-06-22 17:45:04

短视频理解和长视频理解在模型设计上的核心差异，主要体现在视觉Token生成策略、时序建模方式、以及音频-视觉融合时机三个方面。短视频理解更关注关键帧的精准捕捉与...

17610

视频理解技术详解：AI是如何"看懂"视频的？

gavin1024 27天前2026-06-22 14:10:04

视频理解是多模态AI的核心能力之一，让机器能够像人一样"看懂"视频内容。本文从技术原理出发，介绍视频理解的关键环节，并以VITA多模态理解模型为例，说明原生多模...

27610

从"多模型拼接"到"端到端原生多模态"：VITA 3.0 上线

腾讯云_内容识别

腾讯云智｜云产三-内容识别-产运 (已认证)

27天前2026-06-22 11:34:56

这是一个工程决策问题，不只是模型问题。本文围绕"架构选择"这条主线，把腾讯云 VITA 图像理解 3.0 与传统拼接工作流方案做一次系统对照，让"换"或"不换"...

20610

干掉AI初创公司真正的杀手锏：视频理解模型

匙亮旭 2026-06-172026-06-17 20:43:11

好久没写AI发展趋势这类随笔了，最近一直在做一些垂直领域的智能体，客户要求还挺高，感觉我们的方案不够Amazing，你单单用一些RAG思想来完成基本需求达成KP...

10510

VITA技术解析：原生多模态大模型如何重写内容理解

腾讯云_内容识别

腾讯云智｜云产三-内容识别-产运 (已认证)

2026-06-122026-06-12 17:12:42

本文面向多模态业务的开发者与技术决策者，从架构、能力、工程指标三个维度，系统说明 VITA 的技术选择与对应的工程价值。

27910

腾讯云上线多模态理解模型 VITA

腾讯云_内容识别

腾讯云智｜云产三-内容识别-产运 (已认证)

2026-06-112026-06-11 15:02:22

● 视频理解：支持对视频里的画面和音频做综合理解，单次支持30min的长视频处理，擅长做视频结构化、分镜拆解、内容摘要等任务

88150

大模型视频理解（Video Understanding）技术详解：从多模态 Embedding 到场景语义

gavin1024 2026-06-012026-06-01 18:05:04

视频理解正从标签识别跨越到场景语义。本文系统拆解多模态大模型如何对视频进行时序采样、跨模态对齐与场景推理，覆盖Embedding空间、注意力机制、时序建模与语义...

88610

先猜后验：四个Agent协作理解长视频，VideoMME三基准SOTA

CoovallyAIHub 2026-04-092026-04-09 17:04:20

长视频理解一直面临一个核心矛盾：视频越长，冗余信息越多，模型越容易在海量帧中"迷路"。现有的Agent方法大多采用反应式检索——先搜索相关片段，再根据搜到的内容...

31710

video-subtitle-remover（VSR）--开源AI去字幕方案深度解析

用户4563504 2026-03-022026-03-02 20:57:12

在视频剪辑、二创和影视加工场景里，“硬字幕”（内嵌到画面里的字幕）一直是特别棘手的问题：

3.8K11

视频理解+开放网络搜索=首个视频Deep Research评测基准

新智元 2026-01-262026-01-26 18:05:04

试想这样一个场景：你看到视频中博物馆的一个展品，想知道「该博物馆推荐的展品中，距离这个展品最近的那个，其注册编号是多少？」

34910

#视频理解

视频孪生技术：概念定义、核心技术体系与创新应用研究

agno v2.6.22发布：视频理解、搜索研究、超时机制、安全修复全面升级，一文看懂全部更新

VideoSeek 长视频理解 Agent : 让 GPT-5 在长视频理解上再提 10 个点的秘密

视频理解太慢？VITA"秒级理解"的技术原理

视频理解中的时序建模：如何让AI理解"前因后果"？

VITA 3.0全新升级：视频理解、音频理解、图文理解三合一

短视频 vs 长视频理解：模型设计有什么不同？

视频理解技术详解：AI是如何"看懂"视频的？

从"多模型拼接"到"端到端原生多模态"：VITA 3.0 上线

干掉AI初创公司真正的杀手锏：视频理解模型

VITA技术解析：原生多模态大模型如何重写内容理解

腾讯云上线多模态理解模型 VITA

大模型视频理解（Video Understanding）技术详解：从多模态 Embedding 到场景语义

先猜后验：四个Agent协作理解长视频，VideoMME三基准SOTA

video-subtitle-remover（VSR）--开源AI去字幕方案深度解析

视频理解+开放网络搜索=首个视频Deep Research评测基准

相关产品

热门专栏

量子位

媒矿工厂

新智元

计算机视觉战队

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐