视频理解产品功能

语音信息提取
语音转文本
基于微信智聆的语音识别算法能力，针对音视频场景专属优化，支持精准识别视频中的语音内容及内容对应的视频时间段，支持中文标点预测和智能断句。支持中文普通话素材、粤语素材、普粤混合素材的语音信息提取，语音识别正确率不低于97%。
﻿
音频分类
支持通过深度学习算法输出音频分类，在歌曲演唱的视频场景中，语音转文本的结果容易由于歌曲段落语音发音不准确而置信度降低，支持通过音频分类算法输出“歌曲”段落提示。
视频文字信息提取
针对视频文本场景专项优化，视频文字信息提取算法以 OCR 为基础模型，通过自然语言处理等多模态算法模型进行预处理和后处理，智能识别视频中核心的文字内容信息，过滤其他干扰文字内容，并输出标题、人物和字幕三类文本内容和文本类别。支持过滤台标、栏目名称、滚动字幕和背景文字内容。
图像标签识别
图像标签
依托上亿级图像视频数据沉淀和大规模图像视频训练平台支持，基于腾讯优图实验室的深度学习智能图像标签识别模型，支持输出涵盖人物、事件、场景、物品、食物、动物多个标签，全面覆盖日常事物的各个信息维度，输出标签信息及标签的一级二级分类信息。
基于传媒视频场景定制优化，构建了新闻、综艺等垂直场景的特制化标签体系，支持输出画面高概括度的高价值标签。
台标/来源 logo 识别
通过深度学习图像算法，智能识别画面中的台标或来源 logo（如腾讯视频、微视等）名称。台标支持精准识别到电视台的具体频道，支持范围覆盖央视各频道和各大卫视。来源 logo 支持识别定位视频的渠道方，融媒体机构方的 logo，智能 logo 识别准确率不低于97%。
地标识别
基于腾讯优图的深度学习算法，智能识别视频中出现的国内外著名地标，覆盖人文景点、建筑物等，输出如长城、布达拉宫标签结果。
文本标签识别
文本标签支持实体关键词识别和抽象关键词识别，基于海量的文本库数据，通过自然语言处理的智能算法引擎，识别出视频内容中的文本关键词。
实体关键词识别
智能识别视频内容中的实体名词，识别范围包括：人物姓名、地名、组织机构名、日期时间、事件活动名、身份名、品牌/产品名、地标名称等。输出结果经过知识图谱匹配及标签纠错，最大程度保证输出标签的信息完善和准确有效。
抽象关键词识别
通过自然语言处理算法，精准识别文本中的关键词语，作为实体关键词的补充。
多模态融合标签识别
针对互联网资讯类别的视频内容，支持图像、文字、音频多模态融合的概要标签识别和视频分类识别。
视频概要标签识别
融合视频中音视图文多维度特征，输出视频的符合视频主题的概括性标签。概要标签指与视频内容关联度高的实体关键词，以及对视频的主题概括或部分概括的词语，概要标签可能没有在视频的文本或画面中明确出现，但标签与视频的核心内容相关。
视频分类提取
融合视频中音视图文多维度特征，输出符合视频主题的类别标签。
产品功能

本页目录：

语音信息提取

语音转文本

音频分类

视频文字信息提取

图像标签识别

图像标签

台标/来源 logo 识别

地标识别

文本标签识别

实体关键词识别

抽象关键词识别

多模态融合标签识别

视频概要标签识别

视频分类提取