有奖捉虫:云通信与企业服务文档专题,速来> HOT

语音信息提取

语音转文本

基于微信智聆的语音识别算法能力,针对音视频场景专属优化,支持精准识别视频中的语音内容及内容对应的视频时间段,支持中文标点预测和智能断句。支持中文普通话素材、粤语素材、普粤混合素材的语音信息提取。

音频分类

支持通过深度学习算法输出音频分类,在歌曲演唱的视频场景中,语音转文本的结果容易由于歌曲段落语音发音不准确而置信度降低,支持通过音频分类算法输出“歌曲”段落提示。

视频文字信息提取

针对视频文本场景专项优化,视频文字信息提取算法以 OCR 为基础模型,通过自然语言处理等多模态算法模型进行预处理和后处理,智能识别视频中核心的文字内容信息,过滤其他干扰文字内容,并输出标题、人物和字幕三类文本内容和文本类别。支持过滤台标、栏目名称、滚动字幕和背景文字内容。

图像标签识别

图像标签

依托上亿级图像视频数据沉淀和大规模图像视频训练平台支持,基于腾讯优图实验室的深度学习智能图像标签识别模型,支持输出涵盖人物、事件、场景、物品、食物、动物多个标签,全面覆盖日常事物的各个信息维度,输出标签信息及标签的一级二级分类信息。 基于传媒视频场景定制优化,构建了新闻、综艺等垂直场景的特制化标签体系,支持输出画面高概括度的高价值标签。

台标/来源 logo 识别

通过深度学习图像算法,智能识别画面中的台标或来源 logo(如腾讯视频、微视等)名称。台标支持精准识别到电视台的具体频道,支持范围覆盖央视各频道和各大卫视。来源 logo 支持识别定位视频的渠道方,融媒体机构方的 logo。

地标识别

基于腾讯优图的深度学习算法,智能识别视频中出现的国内外著名地标,覆盖人文景点、建筑物等,输出如长城、布达拉宫标签结果。

文本标签识别

文本标签支持实体关键词识别和抽象关键词识别,基于海量的文本库数据,通过自然语言处理的智能算法引擎,识别出视频内容中的文本关键词。

实体关键词识别

智能识别的视频内容中的实体名词,识别范围包括:人物姓名、地名、组织机构名、日期时间、事件活动名、身份名、品牌/产品名、地标名称等。输出结果经过知识图谱匹配及标签纠错,最大程度保证输出标签的信息完善和准确有效。

抽象关键词识别

通过自然语言处理算法,精准识别文本中的关键词语,作为实体关键词的补充。

多模态融合标签识别

针对互联网资讯类别的视频内容,支持图像、文字、音频多模态融合的概要标签识别和视频分类识别。

视频概要标签识别

融合视频中音视图文多维度特征,输出视频的符合视频主题的概括性标签。概要标签指与视频内容关联度高的实体关键词,以及对视频的主题概括或部分概括的词语,概要标签可能没有在视频的文本或画面中明确出现,但标签与视频的核心内容相关。

视频分类提取

融合视频中音视图文多维度特征,输出符合视频主题的类别标签。