媒资 AIGC 产品功能

智能媒资
智能媒资作为点播一体化音视频解决方案的“数据智能基座”，旨在通过对海量非结构化音视频内容进行深度理解、结构化解析与知识化重组，解决“内容沉睡”难题，激活存量媒资的深层价值，为高效检索、精准运营与二次创作提供核心数据支撑。
媒资理解
媒体质检
支持进行直播、离线视频中的格式质检、画面内容质检、音频质检，并提供视频整体质量检测评分。
质检类型
检测类型
检测项说明
格式质检
离线视频格式质检
直播流格式质检
检测 DTS、PTS 问题，分辨率变化，采样率变化、丢帧、重复帧等格式问题。
无参考评分
视频无参考评分
根据多维度检测标准，对视频质量进行百分制打分。
质量审核
画面质量
支持对视频的画面质量做出检测，具体检测项如下：
JitterResults：画面抖动。
BlurResults：画面模糊。
AbnormalLightingResults：低光、过曝。
CrashScreenResults：花屏
BlackWhiteEdgeResults：画面黑边、白边、黑屏、白屏、纯色屏时间段。
NoiseResults：画面有噪点。
MosaicResults：画面有马赛克。
QRCodeResults：画面有二维码。
﻿
声音质量
支持对视频的声音质量做出检测，具体检测项如下：
VoiceResults：音频异常，包括静音、低音、爆音。
说明：
媒体质检通过 MPS 媒体处理产品接入，通过云点播进行内容存储。相关接入指引：媒体质检 API 接入、媒体质检控制台体验、媒体质检计费指南。
内容识别
基于腾讯实验室的最新研究成果，为您提供视频内容的全方位识别，支持识别视频内的人物、语音、文字以及帧标签，对视频进行多维度结构化分析。
识别类型
功能说明
人脸识别
基于深度学习方案，帮助客户快速识别视频中的人脸信息并快速定位出视频中的人物所在帧画面，以及人脸所在区域。
语音识别
基于深度学习方案，帮助客户快速识别视频中的声音并转化成文字，支持客户自定义关键词且定位出关键词所在视频的时间点。
文字识别
帮助客户识别视频中出现的文字信息，可用于视频内自定义关键词的提取，也支持竖版文字的识别。
帧标签识别
基于深度学习方案，支持根据客户自定义视频截帧间隔，自动识别截帧画面内的标签，并定位标签所在的视频位置，帧标签涵盖人物、风景、人造物、建筑、动植物、食物等9个大类，包含日常生活的各个信息维度，并且支持在标签体系基础上使用自定义标签，具备迁移学习能力，只需提供原始用户数据便可定制分类器，满足不同类型的用户需求，使标签分类更具灵活性。
片头片尾识别
根据视频画面特征、文字、语音等信息自动识别定位电影/电视剧片头片尾时间点。
说明：
相关接入指引：内容识别 API 接入、内容识别控制台体验、内容识别计费指南。
大模型内容分析
分析类型
能力说明
大模型视频摘要
借助 NLP 能力，大模型视频摘要功能可以对教学课程、新闻、演讲等视频场景，基于 ASR 识别结果进行混元等大模型摘要提取。其提取和概括力强，无需反复拖拽即可快速理解视频内容。同时还支持离线分段和直播实时分段，自动提取段落摘要及关键词，帮助用户快速定位感兴趣的视频片段，提高使用效率。
分类识别
通过分析视频内容，给视频推荐一个类别。目前支持美食、旅游、动漫、音乐等19大类（支持定制，需支付定制费）。
视频标签识别
基于腾讯深度学习方案，智能识别出最符合视频内容的前五项标签摘要，用于视频推荐、检索等场景，用户可在接口中自行选择返回的标签个数。
智能封面
结合视频画面纹理、场景识别等特征信息自动生成文件封面，支持静态封面输出，提升视频封面体验和点击转化率。
说明：
大模型视频摘要走 MPS 媒体处理接入，相关接入指引：大模型内容分析 API 接入、大模型内容分析控制台体验、大模型分析计费指南。
知识库
能力模块
具体能力说明
知识录入与汇聚
支持文档、文本、音视频转写、FAQ、网页内容等多格式导入；支持批量上传、手动录入和 API 对接自动同步。
结构化与标准化
自动/手动分类、标签体系、字段自定义；支持知识拆分、知识点抽取和目录层级管理，形成体系化知识结构。
智能检索
关键词精准检索、语义检索、模糊匹配；支持按分类、标签、时间和权限过滤，检索结果相关性排序。
AI 智能增强
自动摘要、关键词提取、相似知识推荐；支持大模型问答调用，基于知识库生成精准回答。
问答与应用赋能
支持智能客服、智能助手、机器人问答；支持常见问题自动匹配、多轮对话和场景化知识调用。
说明：
知识库内测中，如有需求请 联系我们。
AIGC
AIGC 作为点播一体化音视频解决方案的“创意生产引擎”，旨在通过集成头部生成模型与提供场景化工具链，显著降低高质量、高创意音视频内容的生产门槛与周期，赋能营销、电商、短剧、娱乐等业务的快速创新。
AIGC 内容生成
产品子功能
一句话概括
AI 生文
集成混元、GLM、Kimi、Minimax 等文本生成模型，利用大语言模型，根据用户的指令或提示（Prompt），自动生成全新的、创造性的文本内容。
AI 生图
集成混元、可灵等多家头部模型，支持通过文本描述或参考图片生成高质量图像。
AI 生视频
集成混元、Vidu、可灵等多家头部模型，支持通过文本描述或参考图片生成短视频。
说明：
相关接入指引：AIGC 生视频接入、AIGC 生图接入、AIGC 内容生成控制台体验、AIGC 内容生成计费文档。﻿
垂直场景 AIGC
产品模块
产品子功能
一句话概括
垂直场景 AIGC
电商换装
利用图生图等技术，将指定服装“穿”到模特身上，快速生成电商营销素材。
﻿
漫剧转绘
将真人短剧转绘成漫画风格形式，用于内容创意生成与二次投放。
﻿
智能成片
输入脚本文案，AIGC 自动生成剧本、图片、视频、配音，并拼接剪辑为成片。
说明：
相关接入指引：AIGC 垂直场景 API 接入、AIGC 垂直场景控制台体验、AIGC 垂直场景计费文档。
媒体处理工具箱
极速高清
极速高清转码是普通视频转码的“升级”功能。能够对不同类型的视频做自适应优化处理，以更低的带宽给用户提供更高清的观看体验。在保证画质甚至提升画质的前提下，节省50%+带宽成本。
﻿
说明：
相关接入指引：极速高清 API 接入、极速高清控制台体验、极速高清计费文档。
音视频增强
基于业界领先的音视频 AI 处理模型和丰富的业务数据积累，音视频增强功能可以大幅提升音频和视频质量，广泛应用在 OTT、电商、赛事等场景，带来 QoE、QoS 提升等业务收益。
增强类型
能力
说明
视频增强
超分辨率
超分辨率可以识别视频的内容与轮廓，高清重建视频的细节与局部特征，将低分辨率的视频转换为高分辨率的视频，适用于老片修复等场景。
﻿
低光照增强
因环境状况及拍摄摄像头的硬件限制，在某些场景下拍摄的画面存在亮度和对比度缺失问题，导致画面较暗或细节缺失。通过开启低光照增强，可以大幅提升暗区的细节和对比度，提升人眼主观质量。
﻿
HDR
支持 HDR10、HLG，能够获得更宽的色域，展现更多色彩细节，以提供更高品质的视频内容。
﻿
综合增强
通过 AI 的综合分析能力，自动平衡画面中的纹理内容，在去除压缩伪影和毛刺的同时增强关键细节，从而提高整个画面的总体主观感受。
﻿
色彩增强
色彩增强可以使画面更接近真实色彩，并在一定程度上进行增强满足人眼的喜好。
﻿
细节增强
细节增强对视频中需要关注的细节（例如赛场草地）进行增强，使画面内容更清晰，内容更丰富。
﻿
人脸增强
通过人脸检测针对视频中人眼视觉特别关注的人脸部分进行增强，使该区域的细节更加清晰，提高主观感受。
﻿
去划痕
去划痕可以修复视频中的划痕和雪花点等破坏的内容。
﻿
去毛刺（去伪影）
由于影片在转码或多次转码过程中对视频进行了多次压缩，会引入块效应、振铃效应、色度渗透和蚊噪等，使得视频画面出现一些影响视觉效果的失真，去压缩失真能有效修复编码引入的失真。
﻿
字体增强
对画面中的文字内容进行处理，使文字边界更清晰，提高文字内容的可读性。
﻿
视频降噪
由于影片拍摄中会因为相机和环境引入随机噪点，这里提供降噪服务，在保持细节不损失的情况下，消除画面中的随机噪声。
音频增强
音频降噪
音频智能降噪，去除设备底噪、环境噪声等，适用于录制课程、户外拍摄后期等场景。
﻿
音频分离
分离音视频文件中人声与背景声，或者演唱声和伴奏声，生成独立音频素材，便于后期实现其他风格艺术加工。
﻿
音量均衡
响度标准化：使整体响度水平保持一致，播放时听起来具有相似的音量，避免出现过于响亮或过于安静的问题，提供更好的听觉体验。
音量突变抑制：平滑过于响亮的音频片段，避免出现音量突变的问题，提供更平稳的听觉体验。
﻿
音频美化
杂音去除：减少音频中包含的不需要的杂音或干扰声，提高音频的质量和清晰度。
齿音压制：齿音是指音频中尖锐的、刺耳的声音，通常可能由声音源接近麦克风时产生。压制齿音旨在减少或消除这种不自然的声音，从而改善音频质量。
说明：
相关接入指引：音视频增强 API 接入、音视频增强控制台体验、音视频增强计费文档。
智能字幕
智能字幕功能可以将离线视频文件或直播流中的语音信息进行实时语音识别，将其转换成字幕并进行多语言翻译，支持中文、英语、日韩语等多种语言。适用于直播实时字幕、视频转译出海等场景。也支持通过文字识别提取视频画面中的原有字幕并生成字幕文件，适用于老片修复、高清重制等场景。该功能还支持配置热词库、术语库以增加识别和翻译的准确率。
技术优势
全平台支持：支持处理离线文件、直播流、互动音视频。直播实时同传字幕支持稳态、渐变模式，接入门槛低，无需播放端改造。
准确率高：大模型处理，支持热词、术语库，准确率行业领先。
语种丰富：支持上百种语种，支持多地方言，支持中英文夹杂等混合语种识别。
样式自定义：支持将字幕压制至视频，且字幕样式（字体、字号、颜色、背景、位置等）可自定义，支持页面自定义渲染。
﻿
说明：
相关接入指引：智能字幕 API 接入、智能字幕控制台体验、智能字幕计费文档。
精彩集锦
高光集锦定义了精彩场景对应的关键词，例如“男女主角冲突”或“精彩打斗戏”。通过将图像特征和文本特征映射到一个统一的特征空间，我们可以利用这些关键词精准地找到视频中的精彩场景，从而提取出最引人注目的片段。支持影视剧、足球、篮球、绝地求生、王者荣耀等视频场景。
技术优势
全平台支持：支持处理离线视频，也支持对直播流进行处理，实现对过往的直播内容生成精彩片段。
多场景支持：支持影视剧、体育赛事、游戏竞赛、新闻资讯等视频场景。
高可定制性：支持针对您的具体的视频场景，对模型参数进行定制化调优。
﻿
说明：
精彩集锦通过 MPS 媒体处理接入，相关接入指引：精彩集锦 API 接入、精彩集锦控制台体验、精彩集锦计费文档。
智能横转竖
横转竖不是单纯的旋转，而是通过识别感兴趣区域 （ROI，Region of Interest），将视频裁剪成一定比例的适合移动设备播放的视频。横转竖提供批量生成短视频的能力，能够将现有的横屏视频资源转换成竖屏视频资源。
技术优势
支持多人物场景：当视频中出现两个人物时，支持自动将画面上下分割，并在竖屏视频中分别显示这两个人物。
高可定制性：支持针对您的具体的视频场景，对模型参数进行定制化调优。
﻿
说明：
智能横转竖通过 MPS 媒体处理接入，相关接入指引：智能横转竖 API 接入、智能横转竖控制台体验、智能横转竖计费文档。
﻿模板剪辑
模板剪辑，将常用的视频片头、片尾、转场、字幕、配乐、特效等做成固定模板，用户只需要上传自己的素材，系统就能自动套用模板、一键生成成片。支持在云剪辑上直接制作模板，也支持 pag 模板的导入。
﻿
说明：
接入模板剪辑前请 联系我们 开通云创平台，相关接入指引：模板剪辑 API 接入指引、模板剪辑计费文档。
AIGC 创作 SaaS 平台
智能创作平台
智能创作平台是一站式创作管理运营内容中台，提供内容管理、内容审核、创意营销、云端审片、在线剪辑、直播推流等视频生产、内容创作全链路能力。引领高效视频云端创作生产新方式，帮助企业生产更好的视频。
﻿
说明：
接入智能创作前请 联系我们 开通云创平台，相关接入指引：智能创作使用指南、智能创作计费文档。
阅文漫剧助手
漫剧助手是阅文推出的 AI 驱动、一站式网文改编漫剧创作平台，主打从小说到成片全链路 AI 提效 + 正版 IP 授权 + 团队协作，大幅降低漫剧/短剧制作门槛与成本。
能力模块
核心功能
AI 内容理解
5 分钟解析百万字小说；AI 问书、自动生成大纲/人物小传/剧本。
全链路创作
智能提取角色/场景/道具；自动拆分为分镜；一键生成图/视频/音频。
正版 IP 库
开放 10 万 + 阅文正版 IP 授权。
团队协作
项目/权限/素材共享；镜头级审核批注。
真人 / 画风
9种真人画风；宫格分镜模式，提升镜头连贯性
﻿
说明：
接入阅文漫剧助手请 联系我们 开通平台，相关接入指引：阅文漫剧助手开通指南。

质检类型	检测类型	检测项说明
格式质检	离线视频格式质检直播流格式质检	检测 DTS、PTS 问题，分辨率变化，采样率变化、丢帧、重复帧等格式问题。
无参考评分	视频无参考评分	根据多维度检测标准，对视频质量进行百分制打分。
质量审核	画面质量	支持对视频的画面质量做出检测，具体检测项如下： JitterResults：画面抖动。 BlurResults：画面模糊。 AbnormalLightingResults：低光、过曝。 CrashScreenResults：花屏 BlackWhiteEdgeResults：画面黑边、白边、黑屏、白屏、纯色屏时间段。 NoiseResults：画面有噪点。 MosaicResults：画面有马赛克。 QRCodeResults：画面有二维码。
质量审核		声音质量	支持对视频的声音质量做出检测，具体检测项如下： VoiceResults：音频异常，包括静音、低音、爆音。

识别类型	功能说明
人脸识别	基于深度学习方案，帮助客户快速识别视频中的人脸信息并快速定位出视频中的人物所在帧画面，以及人脸所在区域。
语音识别	基于深度学习方案，帮助客户快速识别视频中的声音并转化成文字，支持客户自定义关键词且定位出关键词所在视频的时间点。
文字识别	帮助客户识别视频中出现的文字信息，可用于视频内自定义关键词的提取，也支持竖版文字的识别。
帧标签识别	基于深度学习方案，支持根据客户自定义视频截帧间隔，自动识别截帧画面内的标签，并定位标签所在的视频位置，帧标签涵盖人物、风景、人造物、建筑、动植物、食物等9个大类，包含日常生活的各个信息维度，并且支持在标签体系基础上使用自定义标签，具备迁移学习能力，只需提供原始用户数据便可定制分类器，满足不同类型的用户需求，使标签分类更具灵活性。
片头片尾识别	根据视频画面特征、文字、语音等信息自动识别定位电影/电视剧片头片尾时间点。

分析类型	能力说明
大模型视频摘要	借助 NLP 能力，大模型视频摘要功能可以对教学课程、新闻、演讲等视频场景，基于 ASR 识别结果进行混元等大模型摘要提取。其提取和概括力强，无需反复拖拽即可快速理解视频内容。同时还支持离线分段和直播实时分段，自动提取段落摘要及关键词，帮助用户快速定位感兴趣的视频片段，提高使用效率。
分类识别	通过分析视频内容，给视频推荐一个类别。目前支持美食、旅游、动漫、音乐等19大类（支持定制，需支付定制费）。
视频标签识别	基于腾讯深度学习方案，智能识别出最符合视频内容的前五项标签摘要，用于视频推荐、检索等场景，用户可在接口中自行选择返回的标签个数。
智能封面	结合视频画面纹理、场景识别等特征信息自动生成文件封面，支持静态封面输出，提升视频封面体验和点击转化率。

能力模块	具体能力说明
知识录入与汇聚	支持文档、文本、音视频转写、FAQ、网页内容等多格式导入；支持批量上传、手动录入和 API 对接自动同步。
结构化与标准化	自动/手动分类、标签体系、字段自定义；支持知识拆分、知识点抽取和目录层级管理，形成体系化知识结构。
智能检索	关键词精准检索、语义检索、模糊匹配；支持按分类、标签、时间和权限过滤，检索结果相关性排序。
AI 智能增强	自动摘要、关键词提取、相似知识推荐；支持大模型问答调用，基于知识库生成精准回答。
问答与应用赋能	支持智能客服、智能助手、机器人问答；支持常见问题自动匹配、多轮对话和场景化知识调用。

产品子功能	一句话概括
AI 生文	集成混元、GLM、Kimi、Minimax 等文本生成模型，利用大语言模型，根据用户的指令或提示（Prompt），自动生成全新的、创造性的文本内容。
AI 生图	集成混元、可灵等多家头部模型，支持通过文本描述或参考图片生成高质量图像。
AI 生视频	集成混元、Vidu、可灵等多家头部模型，支持通过文本描述或参考图片生成短视频。

产品模块	产品子功能	一句话概括
垂直场景 AIGC	电商换装	利用图生图等技术，将指定服装“穿”到模特身上，快速生成电商营销素材。
		漫剧转绘	将真人短剧转绘成漫画风格形式，用于内容创意生成与二次投放。
		智能成片	输入脚本文案，AIGC 自动生成剧本、图片、视频、配音，并拼接剪辑为成片。

增强类型	能力	说明
视频增强	超分辨率	超分辨率可以识别视频的内容与轮廓，高清重建视频的细节与局部特征，将低分辨率的视频转换为高分辨率的视频，适用于老片修复等场景。
		低光照增强	因环境状况及拍摄摄像头的硬件限制，在某些场景下拍摄的画面存在亮度和对比度缺失问题，导致画面较暗或细节缺失。通过开启低光照增强，可以大幅提升暗区的细节和对比度，提升人眼主观质量。
		HDR	支持 HDR10、HLG，能够获得更宽的色域，展现更多色彩细节，以提供更高品质的视频内容。
		综合增强	通过 AI 的综合分析能力，自动平衡画面中的纹理内容，在去除压缩伪影和毛刺的同时增强关键细节，从而提高整个画面的总体主观感受。
		色彩增强	色彩增强可以使画面更接近真实色彩，并在一定程度上进行增强满足人眼的喜好。
		细节增强	细节增强对视频中需要关注的细节（例如赛场草地）进行增强，使画面内容更清晰，内容更丰富。
		人脸增强	通过人脸检测针对视频中人眼视觉特别关注的人脸部分进行增强，使该区域的细节更加清晰，提高主观感受。
		去划痕	去划痕可以修复视频中的划痕和雪花点等破坏的内容。
		去毛刺（去伪影）	由于影片在转码或多次转码过程中对视频进行了多次压缩，会引入块效应、振铃效应、色度渗透和蚊噪等，使得视频画面出现一些影响视觉效果的失真，去压缩失真能有效修复编码引入的失真。
		字体增强	对画面中的文字内容进行处理，使文字边界更清晰，提高文字内容的可读性。
		视频降噪	由于影片拍摄中会因为相机和环境引入随机噪点，这里提供降噪服务，在保持细节不损失的情况下，消除画面中的随机噪声。
音频增强	音频降噪	音频智能降噪，去除设备底噪、环境噪声等，适用于录制课程、户外拍摄后期等场景。
		音频分离	分离音视频文件中人声与背景声，或者演唱声和伴奏声，生成独立音频素材，便于后期实现其他风格艺术加工。
		音量均衡	响度标准化：使整体响度水平保持一致，播放时听起来具有相似的音量，避免出现过于响亮或过于安静的问题，提供更好的听觉体验。音量突变抑制：平滑过于响亮的音频片段，避免出现音量突变的问题，提供更平稳的听觉体验。
		音频美化	杂音去除：减少音频中包含的不需要的杂音或干扰声，提高音频的质量和清晰度。齿音压制：齿音是指音频中尖锐的、刺耳的声音，通常可能由声音源接近麦克风时产生。压制齿音旨在减少或消除这种不自然的声音，从而改善音频质量。

能力模块	核心功能
AI 内容理解	5 分钟解析百万字小说；AI 问书、自动生成大纲/人物小传/剧本。
全链路创作	智能提取角色/场景/道具；自动拆分为分镜；一键生成图/视频/音频。
正版 IP 库	开放 10 万 + 阅文正版 IP 授权。
团队协作	项目/权限/素材共享；镜头级审核批注。
真人 / 画风	9种真人画风；宫格分镜模式，提升镜头连贯性

产品功能

智能媒资

媒资理解

媒体质检

内容识别

大模型内容分析

知识库

AIGC

AIGC 内容生成

垂直场景 AIGC

媒体处理工具箱

极速高清

音视频增强

智能字幕

技术优势

精彩集锦

技术优势

智能横转竖

技术优势

﻿模板剪辑

AIGC 创作 SaaS 平台

智能创作平台

阅文漫剧助手

模板剪辑