首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
技术百科首页 >视频理解

视频理解

修改于 2023-08-31 16:48:57
987
概述

视频理解是基于腾讯领先的 AI 技术和丰富的内容运营经验,对视频内容输出涵盖人物、场景、物体、事件的高精度、多维度的优质标签内容。通过对视频内容进行细粒度的结构化解析,应用于媒资系统管理、素材检索、内容运营等业务场景中。

视频理解有哪些功能?

语音信息提取

  • 语音转文本:基于微信智聆的语音识别算法能力,针对音视频场景专属优化,支持精准识别视频中的语音内容及内容对应的视频时间段,支持中文标点预测和智能断句。支持中文普通话素材、粤语素材、普粤混合素材的语音信息提取。
  • 音频分类:支持通过深度学习算法输出音频分类,在歌曲演唱的视频场景中,语音转文本的结果容易由于歌曲段落语音发音不准确而置信度降低,支持通过音频分类算法输出“歌曲”段落提示。

视频文字信息提取

针对视频文本场景专项优化,视频文字信息提取算法以 OCR 为基础模型,通过自然语言处理等多模态算法模型进行预处理和后处理,智能识别视频中核心的文字内容信息,过滤其他干扰文字内容,并输出标题、人物和字幕三类文本内容和文本类别。支持过滤台标、栏目名称、滚动字幕和背景文字内容。

图像标签识别

  • 图像标签:依托上亿级图像视频数据沉淀和大规模图像视频训练平台支持,基于腾讯优图实验室的深度学习智能图像标签识别模型,支持输出涵盖人物、事件、场景、物品、食物、动物多个标签,全面覆盖日常事物的各个信息维度,输出标签信息及标签的一级二级分类信息。 基于传媒视频场景定制优化,构建了新闻、综艺等垂直场景的特制化标签体系,支持输出画面高概括度的高价值标签。
  • 台标/来源 logo 识别:通过深度学习图像算法,智能识别画面中的台标或来源 logo(如腾讯视频、微视等)名称。台标支持精准识别到电视台的具体频道,支持范围覆盖央视各频道和各大卫视。来源 logo 支持识别定位视频的渠道方,融媒体机构方的 logo。
  • 地标识别:基于腾讯优图的深度学习算法,智能识别视频中出现的国内外著名地标,覆盖人文景点、建筑物等,输出如长城、布达拉宫标签结果。

文本标签识别

文本标签支持实体关键词识别和抽象关键词识别,基于海量的文本库数据,通过自然语言处理的智能算法引擎,识别出视频内容中的文本关键词。

  • 实体关键词识别:智能识别的视频内容中的实体名词,识别范围包括:人物姓名、地名、组织机构名、日期时间、事件活动名、身份名、品牌/产品名、地标名称等。输出结果经过知识图谱匹配及标签纠错,最大程度保证输出标签的信息完善和准确有效。
  • 抽象关键词识别:通过自然语言处理算法,精准识别文本中的关键词语,作为实体关键词的补充。

多模态融合标签识别

针对互联网资讯类别的视频内容,支持图像、文字、音频多模态融合的概要标签识别和视频分类识别。

  • 视频概要标签识别:融合视频中音视图文多维度特征,输出视频的符合视频主题的概括性标签。概要标签指与视频内容关联度高的实体关键词,以及对视频的主题概括或部分概括的词语,概要标签可能没有在视频的文本或画面中明确出现,但标签与视频的核心内容相关。
  • 视频分类提取:融合视频中音视图文多维度特征,输出符合视频主题的类别标签。

视频理解有哪些产品优势?

依托强大 AI 技术

联合腾讯优图、微信等领先团队,融合互联网媒体 AI 应用经验,基于多项打破各类世界纪录,以及数十项业界领先的底层技术。

丰富的标签体系

通过腾讯海量素材的标签积累,结合数据分析数据挖掘,打造丰富的的标签体系,支持实现更多应用和运营维度支撑,还可以为建立知识图谱提供基础体系及元数据。

业内领先标签效果

基于业界领先的底层 AI 技术,强大的标签知识库和标签纠错能力,层层校验标签输出结果,标签准召率、数量、有效性均处于业界领先位置,可供后续工作直接使用,极大提高工作效率。

上亿级用户验证

标签应用在微视、企鹅号、微信看一看+产品中,经过上亿级用户验证,依据运营数据不断优化标签体系和用户体验。

持续的产品打磨

智能标签常规迭代,参考用户反馈,跟踪标签表现;结合标签自运营功能,实现持续的智能标签产品迭代。

应用行业广泛,场景丰富

覆盖传媒、音视频、电商、体育、企业服务等行业的媒资内容理解场景,高效提取媒资视频中基于音视图文的各类标签,供后续内容创作,内容管理,内容运营等工作使用。

视频理解有哪些应用场景?

内容推荐

媒体智能标签提取出丰富且高价值的内容标签,结合智能推荐技术,基于用户信息、用户行为、用户间关系等特征,将内容标签与用户标签进行精准匹配,实现个性化推荐,打造“千人千面”的推荐系统

内容管理

应用于企业媒资入库储存的通用场景,可通过媒体智能标签建立细分的内容框架结构,并补充以详细的文本信息,实现媒资素材的智能归类存储,提高企业内容管理效率。

内容检索

媒体智能标签有效概括视频画面、声音、内容大意等信息,支持用户快速了解视频素材概况,高效检索创作所需的标签并定位相关片段,方便进行素材级的内容定位和资源再利用。例如检索视频库中与近期热点相关的内容标签,从而实现高效且规模化的内容创作,保证内容时效性。

内容运营

根据素材的事件标签和人物标签,可实现热点话题、热门人物的专题内容板块的快速搭建,降低专题活动的素材汇总成本,提高内容运营的效率和质量。

视频理解支持哪些素材格式?

视频格式

描述项

支持范围

视频编码

H.264、H.265、M-JPG、MPEG1/2/4、VP8、AVS+/ AVS、AV1、MPEG DASH

视频封装格式

mp4、rmvb、avi、wmv、mkv、mov、3gp、flv、mpg、mpeg、ts、rm、m4v

视频分辨率

480P、720P、1080P、2K、4K

视频时长

时长<=5小时

视频大小

视频大小<=5G

语种

支持普通话和粤语(粤语版本支持粤语和普粤混杂的视频)

音频格式

描述项

支持范围

音频封装格式

wav、mp3、m4a

音频时长

时长<=4小时

语种

支持普通话和粤语(粤语版本支持粤语和普粤混杂的视频)

图片格式

描述项

支持范围

图片格式

png、jpg、jpeg

图片分辨率

240P-4K

图片大小

图片大小<=100M

文稿格式

描述项

支持范围

文稿格式

txt、word

文稿长度

文稿字数<=10000字

相关文章
  • 数行代码训练视频模型,PyTorch视频理解利器出炉
    1.1K
  • 理解音视频 PTS 和 DTS
    4.9K
  • 深度学习视频理解之图像分类
    1.6K
  • 视频理解综述:动作识别、时序动作定位、视频Embedding(赠书)
    3.9K
  • 针对压缩视频理解的编码框架
    493
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
领券