技术百科

搜索技术百科

技术百科

发布

技术百科首页 >视频理解

视频理解

修改于 2023-08-31 16:48:57

4090

概述

视频理解是基于腾讯领先的 AI 技术和丰富的内容运营经验，对视频内容输出涵盖人物、场景、物体、事件的高精度、多维度的优质标签内容。通过对视频内容进行细粒度的结构化解析，应用于媒资系统管理、素材检索、内容运营等业务场景中。

视频理解有哪些功能？

语音信息提取

语音转文本：基于微信智聆的语音识别算法能力，针对音视频场景专属优化，支持精准识别视频中的语音内容及内容对应的视频时间段，支持中文标点预测和智能断句。支持中文普通话素材、粤语素材、普粤混合素材的语音信息提取。
音频分类：支持通过深度学习算法输出音频分类，在歌曲演唱的视频场景中，语音转文本的结果容易由于歌曲段落语音发音不准确而置信度降低，支持通过音频分类算法输出“歌曲”段落提示。

视频文字信息提取

针对视频文本场景专项优化，视频文字信息提取算法以 OCR 为基础模型，通过自然语言处理等多模态算法模型进行预处理和后处理，智能识别视频中核心的文字内容信息，过滤其他干扰文字内容，并输出标题、人物和字幕三类文本内容和文本类别。支持过滤台标、栏目名称、滚动字幕和背景文字内容。

图像标签识别

图像标签：依托上亿级图像视频数据沉淀和大规模图像视频训练平台支持，基于腾讯优图实验室的深度学习智能图像标签识别模型，支持输出涵盖人物、事件、场景、物品、食物、动物多个标签，全面覆盖日常事物的各个信息维度，输出标签信息及标签的一级二级分类信息。基于传媒视频场景定制优化，构建了新闻、综艺等垂直场景的特制化标签体系，支持输出画面高概括度的高价值标签。
台标/来源 logo 识别：通过深度学习图像算法，智能识别画面中的台标或来源 logo（如腾讯视频、微视等）名称。台标支持精准识别到电视台的具体频道，支持范围覆盖央视各频道和各大卫视。来源 logo 支持识别定位视频的渠道方，融媒体机构方的 logo。
地标识别：基于腾讯优图的深度学习算法，智能识别视频中出现的国内外著名地标，覆盖人文景点、建筑物等，输出如长城、布达拉宫标签结果。

文本标签识别

文本标签支持实体关键词识别和抽象关键词识别，基于海量的文本库数据，通过自然语言处理的智能算法引擎，识别出视频内容中的文本关键词。

实体关键词识别：智能识别的视频内容中的实体名词，识别范围包括：人物姓名、地名、组织机构名、日期时间、事件活动名、身份名、品牌/产品名、地标名称等。输出结果经过知识图谱匹配及标签纠错，最大程度保证输出标签的信息完善和准确有效。
抽象关键词识别：通过自然语言处理算法，精准识别文本中的关键词语，作为实体关键词的补充。

多模态融合标签识别

针对互联网资讯类别的视频内容，支持图像、文字、音频多模态融合的概要标签识别和视频分类识别。

视频概要标签识别：融合视频中音视图文多维度特征，输出视频的符合视频主题的概括性标签。概要标签指与视频内容关联度高的实体关键词，以及对视频的主题概括或部分概括的词语，概要标签可能没有在视频的文本或画面中明确出现，但标签与视频的核心内容相关。
视频分类提取：融合视频中音视图文多维度特征，输出符合视频主题的类别标签。

视频理解有哪些产品优势？

依托强大 AI 技术

联合腾讯优图、微信等领先团队，融合互联网媒体 AI 应用经验，基于多项打破各类世界纪录，以及数十项业界领先的底层技术。

丰富的标签体系

通过腾讯海量素材的标签积累，结合数据分析和数据挖掘，打造丰富的的标签体系，支持实现更多应用和运营维度支撑，还可以为建立知识图谱提供基础体系及元数据。

业内领先标签效果

基于业界领先的底层 AI 技术，强大的标签知识库和标签纠错能力，层层校验标签输出结果，标签准召率、数量、有效性均处于业界领先位置，可供后续工作直接使用，极大提高工作效率。

上亿级用户验证

标签应用在微视、企鹅号、微信看一看+产品中，经过上亿级用户验证，依据运营数据不断优化标签体系和用户体验。

持续的产品打磨

智能标签常规迭代，参考用户反馈，跟踪标签表现；结合标签自运营功能，实现持续的智能标签产品迭代。

应用行业广泛，场景丰富

覆盖传媒、音视频、电商、体育、企业服务等行业的媒资内容理解场景，高效提取媒资视频中基于音视图文的各类标签，供后续内容创作，内容管理，内容运营等工作使用。

视频理解有哪些应用场景？

内容推荐

媒体智能标签提取出丰富且高价值的内容标签，结合智能推荐技术，基于用户信息、用户行为、用户间关系等特征，将内容标签与用户标签进行精准匹配，实现个性化推荐，打造“千人千面”的推荐系统。

内容管理

应用于企业媒资入库储存的通用场景，可通过媒体智能标签建立细分的内容框架结构，并补充以详细的文本信息，实现媒资素材的智能归类存储，提高企业内容管理效率。

内容检索

媒体智能标签有效概括视频画面、声音、内容大意等信息，支持用户快速了解视频素材概况，高效检索创作所需的标签并定位相关片段，方便进行素材级的内容定位和资源再利用。例如检索视频库中与近期热点相关的内容标签，从而实现高效且规模化的内容创作，保证内容时效性。

内容运营

根据素材的事件标签和人物标签，可实现热点话题、热门人物的专题内容板块的快速搭建，降低专题活动的素材汇总成本，提高内容运营的效率和质量。

视频理解支持哪些素材格式？

视频格式

描述项	支持范围
视频编码	H.264、H.265、M-JPG、MPEG1/2/4、VP8、AVS+/ AVS、AV1、MPEG DASH
视频封装格式	mp4、rmvb、avi、wmv、mkv、mov、3gp、flv、mpg、mpeg、ts、rm、m4v
视频分辨率	480P、720P、1080P、2K、4K
视频时长	时长<=5小时
视频大小	视频大小<=5G
语种	支持普通话和粤语（粤语版本支持粤语和普粤混杂的视频）

音频格式

描述项	支持范围
音频封装格式	wav、mp3、m4a
音频时长	时长<=4小时
语种	支持普通话和粤语（粤语版本支持粤语和普粤混杂的视频）

图片格式

描述项	支持范围
图片格式	png、jpg、jpeg
图片分辨率	240P-4K
图片大小	图片大小<=100M

文稿格式

描述项	支持范围
文稿格式	txt、word
文稿长度	文稿字数<=10000字

词条知识树 (6个知识点)