产品功能

人脸识别
识别视频中的人脸信息并定位视频中的人物所在帧以及人脸所在区域,支持自定义人物信息。
语音识别
快速识别视频中的声音并转化成文字,适用于字幕生成及生成检索文本等场景。
文字识别
识别视频中出现的文字信息,可用于视频内自定义关键词的提取,支持竖版文字的识别。
语音翻译
支持将视频中的语音识别并翻译成目标语言文本,支持中文、英语、日韩语等多种语言识别翻译。
帧标签识别
支持识别标签及位置,涵盖人物、风景、建筑、动植物、食物等9个大类,支持自定义标签。
片头片尾识别
根据视频画面特征、文字、语音等信息自动识别定位电影/电视剧片头片尾时间点。

应用场景

  • 视频生产
  • 广电编目
  • 智能字幕
  • 视频广告
视频生产

通过智能识别,您可轻松高效地从海量视频中找出所关注的目标人物在视频中出现的时间点,以及人脸所在画面区域和持续时间,便于快速查找相关创作素材,提升后期创作效率。

我们能提供
  • 语音、文本、人物等识别及实时翻译能力,快速将视频内容结构化,辅助内容生产。
  • 通过大模型分析视频中分类、标签、摘要等信息,辅助快速定位理解内容概要,助力生产创作。

产品特性

引擎整合

依托腾讯领先的 AI 技术,整合腾讯内各大实验室的最新研究成果应用到视频场景中,为用户提供一站式视频 AI 理解和识别服务。

海量标签

丰富的人脸数据库、海量视频标签,涵盖人物、事件、场景、物品、风景、食物、动物等类别,全面覆盖常见事物的各个信息维度,满足视频内容全方位标签化。

简单易用

对外提供公有私有一体化、直播点播统一化的标准 REST API 接口,可与点播服务、COS 存储、第三方存储系统快速打通,便捷接入,自主调度切换。

倍速可控

基于分布式视频处理算法,对于不同客户可以满足不同倍速、不同并发、不同识别粒度处理要求,自适应满足客户处理效率和成本的平衡,提升性价比。

高可定制

接入简单、成熟稳定、高效灵活的 API 接口,为用户量身定制视频 AI 服务私有化中台,帮助用户构建安全稳定、高效可靠、性价比高的视频云服务生态。

准确高效

海量的数据样本及丰富的特征数据分析模型,对视频每一帧进行画面、音频、文字多角度分析,提供准确、全面的音视频内容结构化识别能力。

常见问题

智能识别支持哪些视频格式?支持音频吗?直播流呢?

音频支持 wav、mp3、aac、flac。
视频支持 mp4、flv、mkv、avi、rmvb、ts、fmp4 等常见音视频容器格式。
直播流支持 flv、rtmp、hls、dash等音视频传输协议。

若有其他不常见格式且视频量较大可以联系您的腾讯云商务提出申请。

如何挑选入库人脸图片能达到较好的视频识别结果?

默认处理速度如何?如何申请调整默认处理速度或者默认并发限制?

关于短视频的智能识别计费是按单个视频向分钟取整计费,还是累计时长向分钟取整计费?

如何申请私有化部署?

为什么视频中目标人物是连续出现的但是识别结果是离散的点?

更多问题请查看 常见问题,也可在 问答社区 中进行提问 。

按照我们的入门指南,只需在控制台开通服务,即可使用腾讯云智能识别。