多模态理解

最近更新时间:2026-04-24 22:01:11

我的收藏

概述

多模态理解模型,支持对视频和图片内容进行分析,可用于视频结构解析、图像目标检测等场景。平台兼容 OpenAI Completions API 协议,您可以直接使用 OpenAI SDK 或任何兼容客户端接入。

模型功能概览

模型名称
model 参数
视频理解
图片理解
YT-VITA
youtu-vita
支持对视频的画面和音频做理解
支持

OpenAI API 使用

BaseURL

境内:https://tokenhub.tencentmaas.com/v1

请求参数

参数名
必选
类型
描述
model
String
服务 ID,可统一从在线推理服务、服务 ID 字段查看。
对于平台默认创建的服务,服务 ID 与模型名称相同,例如:youtu-vita
对于用户创建的自定义服务,服务 ID 格式为:ep-xxxxxxxx,可在 在线推理服务 页面查看。
messages
Array
需要理解的内容,详细信息请参见 messages 参数说明
stream
Boolean
是否启用流式输出。
取值范围:true / false,默认值为 false
temperature
Float
输出随机性。
取值范围:[0.0, 2.0]
top_p
Float
输出多样性(核采样)。
取值范围:[0.0, 1.0]
max_tokens
Integer
限制最大输出 Token 数。
stop
Array of String
指定模型输出的停止序列。当生成结果命中任一指定序列时,模型将停止输出,且响应内容中不包含该停止序列。支持传入单个字符串或字符串数组,最多 4 个。
例如:让模型生成一个 10 条的清单,若不希望继续输出第 11 条,此处可填写为:["11."] 。

messages 参数说明

字段
必选
类型
描述
role
String
角色:user(用户)
content
Array of
需要理解的内容,详细信息请参见 content 参数说明

content 参数说明

字段
必选
类型
描述
type
String
输入类型:text, image_url, video_url
text
String
自定义的理解指令,例如:请描述视频的内容。
image_url
Object
需要做理解的图片信息,type 传入 image_url 时需指定,详情请参见 image_url 对象
video_url
Object
需要做理解的视频信息,type 传入 video_url 时需指定,详情请参见 video_url 对象

image_url 对象

字段
必选
类型
描述
url
String
图片 URL 链接。格式要求如下
封装格式:JPG、JPEG、PNG、WEBP
文件大小:最大10MB

video_url 对象

字段
必选
类型
描述
url
String
视频 URL 链接。格式要求如下:
封装格式:MP4、MOV、AVI、WebM
编码格式:H.264、H.265
时长大小:时长最长 10 分钟,文件大小最大 100MB

返回参数

参数名
类型
描述
id
String
请求唯一标识。
object
String
对象类型,固定 chat.completion
created
Integer
创建时间(Unix 时间戳)。
model
String
实际使用的模型名称。
choices
Array
模型针对同一次请求返回的候选结果列表,详情请参见 choices 数组元素
usage
Object
详情请参见 usage 对象

choices 数组元素

字段
类型
描述
index
Integer
选项索引。
message
Object
回复消息,包含 rolecontent
finish_reason
String
结束原因:stop(正常结束)、length(达到最大长度)、tool_calls(需要调用工具)

usage 对象

字段
类型
描述
prompt_tokens
Integer
输入 Token 数
completion_tokens
Integer
输出 Token 数
total_tokens
Integer
总 Token 数

调用示例

示例1:输入为视频

curl -X POST 'https://tokenhub.tencentmaas.com/v1/chat/completions' \\
-H 'Authorization: Bearer YOUR_API_KEY' \\
-H 'Content-Type: application/json' \\
-d '{
"model": "youtu-vita",
"messages": [{"role": "user", "content": [
{"type": "video_url", "video_url": {"url": "<video url>"}},
{"type": "text", "text": "请描述视频的内容"}
]}],
"stream": false
}'

示例2:输入为图片

curl -X POST 'https://tokenhub.tencentmaas.com/v1/chat/completions' \\
-H 'Authorization: Bearer YOUR_API_KEY' \\
-H 'Content-Type: application/json' \\
-d '{
"model": "youtu-vita",
"messages": [{"role": "user", "content": [
{"type": "image_url", "image_url": {"url": "<image url>"}},
{"type": "text", "text": "请描述图片的内容"}
]}],
"stream": false
}'