媒体处理大模型音视频理解接入

功能介绍
大模型音视频理解功能，使用行业内领先的多模态大模型，实现对视频、音频的内容理解，通过提示词来设定内容理解的侧重点，以及文本结果的输出格式。
功能优势
使用简单：无需复杂设置，仅需通过提示词限定输出格式，即可实现批量内容理解。  
内容质量高：例如在教育场景中，能够对绘画的色彩、笔法、造型和结构进行点评。在音乐演奏场景中，可对节奏、音准、指法等方面，提供专业的演奏点评和改进建议。
使用场景广泛：可应用与短视频总结，视频脚本拆解，视频/音频评价，分镜理解等场景。
前提条件
在使用本功能前，您需完成以下前置操作：
腾讯云账号注册/登录、开通 MPS 产品、完成服务角色授权。
若您使用腾讯云子账号，还需要保证账号有足够权限使用 MPS 产品。
具体指引请参考 快速入门。账号授权问题可参考 账号授权 文档。
发起大模型音视频理解任务
使用 API 发起
您可以直接向腾讯云发起 POST 请求，接口请求域名：mps.tencentcloudapi.com。调用 媒体处理接口 发起 POST 请求，选择 AiAnalysisTask 任务，将 Definition 设置为 33（预设视频理解模板）。ExtendedParameter 填额外的扩展参数，通过该参数实现特定的能力，取值详情见下文 扩展参数说明。
示例：
{
    "InputInfo": {
        "Type": "URL",
        "UrlInputInfo": {
            "Url": "https://facedetectioncos-1251132611.cos.ap-guangzhou.myqcloud.com/video/xxx.mp4" // 替换成要AI分析的视频或音频URL
        }
    },
    "AiAnalysisTask": {
        "Definition": 33, //预设视频理解模板 ID
        "ExtendedParameter": "{\\"mvc\\":{\\"mode\\":\\"audio\\",\\"prompt\\":\\"...\\"}}"
    },
    "OutputStorage": {
        "CosOutputStorage": {
            "Bucket": "test-mps-123456789",
            "Region": "ap-guangzhou-2"
        },
        "Type": "COS"
    },
    "OutputDir": "/output/",
    "TaskNotifyConfig": {
        "NotifyType": "URL",
        "NotifyUrl": "http://qq.com/callback/qtatest/?token=xxxxxx"
    },
    "Action": "ProcessMedia",
    "Version": "2019-06-12"
}
扩展参数说明
ExtendedParameter 用于对视频理解任务进行个性设置，ExtendedParameter 全部可选参数及其说明参考下表：
参数
类型
必填
描述
mode
String
是
video|audio，理解模式，audio 模式下如果上传的是视频，服务内部会从视频中提取音频。
prompt
String
是
大模型提示词。
extendData
Array
否
扩展数据，多于1个音视频文件可放在此字段。
extendData[i].url
String
否
数据文件 URL。
请求参数示例：
{
  	"mvc": {
        "mode": "audio",    // video|audio, 理解模式, audio模式下如果上传的是视频，服务内部会从视频中提取音频
      	 "prompt": "...",    // 大模型提示词
        "extendData": [    // 扩展数据，对比数据可放在该字段
            {
                "url": "..."        // 数据文件 url
            }
            {}
        ]
    }
}
﻿
任务结果
任务回调：在使用 ProcessMedia 发起媒体处理任务时，可以通过 TaskNotifyConfig 参数设置回调信息。当任务处理完成后，会通过配置的回调信息回调任务结果，可以通过 ParseNotification 解析事件通知结果。下方列出了相关数据结构以供参考。
查询结果：使用 ProcessMedia 返回的 TaskId 调用 查询任务详情 接口查询任务处理结果。解析 WorkflowTask > AiAnalysisResultSet > VideoComprehensionTask > Output 即可。
示例：
"WorkflowTask": {
      "AiAnalysisResultSet": [
        {
          "ClassificationTask": null,
          "CoverTask": null,
          "DeLogoTask": null,
          "DescriptionTask": null,
          "DubbingTask": null,
          "FrameTagTask": null,
          "HeadTailTask": null,
          "HighlightTask": null,
          "HorizontalToVerticalTask": null,
          "SegmentTask": null,
          "TagTask": null,
          "Type": "VideoComprehension",
          "VideoComprehensionTask": {
            "BeginProcessTime": "2025-11-17T07:22:12Z",
            "ErrCode": 0,
            "ErrCodeExt": "",
            "FinishTime": "2025-11-17T07:23:45Z",
            "Input": {
              "Definition": 33
            },
            "Message": "SUCCESS",
            "Output": {
              "VideoComprehensionAnalysisResult": "好的，作为一名专业的音乐分析师和乐评人，我已仔细聆听了您提供的两段《梦中的婚礼》音频：“示例”版本和您的“用户弹奏”版本。现在，我将基于专业的角度，对您的演奏进行细致的分析与评价。\\n\\n---\\n\\n### **《梦中的婚礼》演奏综合评价报告**\\n\\n**演奏者：** 用户\\n**评价人：** 专业音乐分析师\\n\\n您好！非常感谢您分享的演奏音频。能够挑战并尝试弹奏《梦中的婚礼》这样一首广受欢迎且富有技巧性的钢琴曲，本身就是一件非常有勇气和值得鼓励的事情。您的演奏让我感受到了您对这首乐曲的喜爱。接下来，我将从几个专业维度对您的演奏进行分析，并提供一些具体的建议，希望能帮助您更好地掌握这首美妙的乐曲。\\n\\n#### **1. 旋律评价 (Melody)**\\n\\n您的演奏在旋律的整体走向方面有基本的把握，能够大致弹出主旋律的音高。但其中存在较多错音和漏音的情况，尤其是在乐曲进入双八度或快速音阶式进行的部分，音符的准确性有待提高。这在一定程度上影响了旋律线条的清晰度和连贯性，使得听众难以完整地感受到旋律的美感。\\n\\n*   **例如：** 在乐曲中段（约1分20秒处），右手旋律的快速上行乐句出现了明显的音符错误和节奏混乱，与左手伴奏脱节。\\n\\n#### **2. 节奏评价 (Rhythm)**\\n\\n**节奏的稳定性是您本次演奏中最需要提升的核心部分。** 我注意到音频背景中似乎有节拍器的声音，但您的演奏并未能稳定地跟上节拍。\\n\\n*   **速度不均：** 整体速度偏慢且极不稳定，时常出现为了寻找下一个音而导致的拖沓和停顿，而在一些相对熟练的片段又会突然加速，导致节奏忽快忽慢。\\n*   **左右手配合：** 左手的分解和弦（琶音）作为这首曲子的节奏基石，其速度非常不均匀，未能形成如流水般平滑稳定的律动感，这直接影响了右手旋律的稳定发挥。\\n*   **对比示例：** 示例音频中，左手的琶音像一个精准而温柔的钟摆，为右手旋律提供了坚实的“节奏地毯”。您的演奏则更像是在探索和犹豫，节奏的框架不够稳固。\\n\\n#### **3. 指法评价 (Fingering)**\\n\\n虽然无法直接看到您的指法，但从演奏效果可以做出一些推断。演奏中频繁的停顿、错音和不连贯的乐句，很可能源于指法不熟练或规划不合理。\\n\\n*   **不连贯感：** 许多乐句听起来是“一个一个音蹦出来”的，而不是平滑连接（Legato）的，这通常与指法转换不顺畅有关。流畅的指法是实现乐句歌唱性的前提。\\n*   **协调性问题：** 在左右手需要快速交替或配合的段落，例如乐曲高潮部分的和弦与旋律穿插，能明显感觉到双手协调的困难，这同样指向了指法熟练度不足的问题。\\n\\n#### **4. 演奏的亮点与不足**\\n\\n*   **值得肯定的点 (Strengths)：**\\n    1.  **敢于挑战：** 您选择了这样一首包含琶音、八度、快速跑动等多种技巧的完整曲目进行尝试，这份热情和勇气是学习音乐最宝贵的财富。\\n    2.  **对乐曲有基本认知：** 尽管存在许多技术问题，但您大致遵循了乐曲从引子、主部、发展到高潮的基本结构，说明您对全曲有整体的理解。\\n\\n*   **需要改进的点 (Weaknesses)：**\\n    1.  **音准问题 (Accuracy)：** 错音、漏音现象贯穿始终，是首要解决的问题。\\n    2.  **节奏不稳 (Rhythm)：** 这是本次演奏的核心短板，导致音乐失去了流动感和骨架。\\n    3.  **缺乏音乐表现力 (Expression)：** 整曲的力度（动态）几乎没有变化，都是以相近的力度弹奏。乐曲应有的温柔、梦幻、激昂再回归平静的情感层次没有体现出来。\\n    4.  **连贯性差 (Cohesion)：** 由于技术上的障碍，乐句之间连接生硬，时有中断，未能形成完整的音乐篇章。\\n\\n#### **5. 给您的演奏建议 (Suggestions for Improvement)**\\n\\n1.  **降速！降速！再降速！(Slow Down!)**\\n    *   **分手练习：** 将左右手完全分开，用一个极其缓慢的速度（比如节拍器调至40-50）单独练习。目标是确保每一个音都弹对，每一个节奏都准确无误。\\n    *   **合手慢练：** 在分手练习没有问题后，用同样极慢的速度合手。此刻的目标是协调，而不是速度。\\n\\n2.  **节拍器是您最好的朋友 (Use the Metronome Effectively)**\\n    *   请务必使用节拍器。从一个您能**毫不费力跟上**的慢速开始，当您能连续多次无误地弹奏一个段落后，再以非常小的幅度（如每次增加2-4拍）提速。这是解决节奏问题的唯一捷径。\\n\\n3.  **分段攻克 (Practice in Sections)**\\n    *   不要每次都从头弹到尾。将乐曲分成8-16小节的小段落，把每一段都练到滚瓜烂熟，再将它们连接起来。优先攻克那些您出错最多的“重灾区”。\\n\\n4.  **聆听与模仿 (Listen and Imitate)**\\n    *   反复聆听“示例”音频或其他优秀演奏家的版本。重点去听：\\n        *   左手琶音的均匀感和律动。\\n        *   旋律线条的起伏和呼吸感。\\n        *   音乐在何处变强，何处变弱。\\n    *   用心去感受并尝试在自己的慢速练习中模仿这些音乐表情。\\n\\n#### **6. 综合打分 (Overall Score)**\\n\\n根据以上全方位分析，并参考示例演奏的完成度，我对您本次演奏的评分为：\\n\\n### **45 / 100 分**\\n\\n**评分说明：**\\n这个分数反映出您目前处于学习这首乐曲的初级阶段。您已经了解了乐曲的“形状”，但尚未掌握其“灵魂”——即精准的音符、稳定的节奏和丰富的情感。这完全正常，每一位钢琴学习者都会经历这个过程。请不要灰心，这个分数恰恰指明了您未来巨大的进步空间。\\n\\n**结束语：**\\n音乐学习是一个“慢工出细活”的过程。请将我的建议应用到您的日常练习中，特别是**“分手慢练 + 节拍器”** 这个黄金法则。我相信，只要您有足够的耐心和正确的练习方法，下一次再弹奏这首《梦中的婚礼》时，一定会给听众（也给您自己）带来截然不同的感受。加油！"
            },
            "Progress": 100,
            "Status": "SUCCESS"
          },
          "VideoRemakeTask": null
        }
      ]
相关数据结构
AiAnalysisTaskVideoComprehensionResult
视频理解结果类型，被如下接口引用：DescribeTaskDetail，ParseNotification。
名称
类型
描述
Status
String
任务状态，有 PROCESSING，SUCCESS 和 FAIL 三种。
示例值：SUCCESS
ErrCode
Integer
错误码。
0：成功。
其他值：失败。
示例值：0
Message
String
错误信息。
示例值：SUCCESS
Input
AiAnalysisTaskVideoComprehensionInput
视频理解任务输入。
Output
AiAnalysisTaskVideoComprehensionOutput
视频理解任务输出。
AiAnalysisTaskVideoComprehensionInput
视频理解任务输入类型，被如下接口引用：DescribeTaskDetail，ParseNotification。
名称
类型
描述
Definition
Integer
视频理解模板 ID。
示例值：33
AiAnalysisTaskVideoComprehensionOutput
视频理解结果信息，被如下接口引用：DescribeTaskDetail，ParseNotification。
名称
类型
描述
VideoComprehensionAnalysisResult
String
视频理解结果。
参数	类型	必填	描述
mode	String	是	video\|audio，理解模式，audio 模式下如果上传的是视频，服务内部会从视频中提取音频。
prompt	String	是	大模型提示词。
extendData	Array	否	扩展数据，多于1个音视频文件可放在此字段。
extendData[i].url	String	否	数据文件 URL。
名称	类型	描述
Status	String	任务状态，有 PROCESSING，SUCCESS 和 FAIL 三种。示例值：SUCCESS
ErrCode	Integer	错误码。 0：成功。其他值：失败。示例值：0
Message	String	错误信息。示例值：SUCCESS
Input	AiAnalysisTaskVideoComprehensionInput	视频理解任务输入。
Output	AiAnalysisTaskVideoComprehensionOutput	视频理解任务输出。
大模型音视频理解接入

本页目录：

功能介绍

功能优势

前提条件

发起大模型音视频理解任务

使用 API 发起

扩展参数说明

任务结果

相关数据结构

AiAnalysisTaskVideoComprehensionResult

AiAnalysisTaskVideoComprehensionInput

AiAnalysisTaskVideoComprehensionOutput