大模型服务平台 TokenHub 多模态理解

概述
多模态理解模型，支持对视频和图片内容进行分析，可用于视频结构解析、图像目标检测等场景。平台兼容 OpenAI Completions API 协议，您可以直接使用 OpenAI SDK 或任何兼容客户端接入。
模型功能概览
模型名称
model 参数
视频理解
图片理解
YT-VITA
youtu-vita
支持对视频的画面和音频做理解
支持
HY-Vision-2.0-Instruct
hy-vision-2.0-instruct
不支持
支持
HY-Vision-1.5-Thinking
hunyuan-t1-vision-20250916
不支持
支持
HY-Vision-Video
hunyuan-turbos-vision-video-20250728
支持对视频的画面做理解
不支持
OpenAI API 使用
BaseURL
境内：https://tokenhub.tencentmaas.com/v1
请求参数
参数名
必选
类型
描述
model
是
String
服务 ID，可统一从在线推理服务、服务 ID 字段查看。
对于平台默认创建的服务，服务 ID 与模型名称相同，例如：youtu-vita。
对于用户创建的自定义服务，服务 ID 格式为：ep-xxxxxxxx，可在 在线推理服务 页面查看。
messages
是
Array
需要理解的内容，详细信息请参见 messages 参数说明。
stream
否
Boolean
是否启用流式输出。
取值范围：true / false，默认值为 false。
temperature
否
Float
输出随机性。
取值范围：[0.0, 2.0]。
top_p
否
Float
输出多样性（核采样）。
取值范围：[0.0, 1.0]。
max_tokens
否
Integer
限制最大输出 Token 数。
stop
否
Array of String
指定模型输出的停止序列。当生成结果命中任一指定序列时，模型将停止输出，且响应内容中不包含该停止序列。支持传入单个字符串或字符串数组，最多 4 个。
例如：让模型生成一个 10 条的清单，若不希望继续输出第 11 条，此处可填写为：["11."] 。 
messages 参数说明
字段
必选
类型
描述
role
是
String
角色：user（用户）
content
是
Array of 
需要理解的内容，详细信息请参见 content 参数说明。
content 参数说明
字段
必选
类型
描述
type
是
String
输入类型：text, image_url, video_url
text
是
String
自定义的理解指令，例如：请描述视频的内容。
image_url
否
Object
需要做理解的图片信息，type 传入 image_url 时需指定，详情请参见 image_url 对象。
video_url
否
Object
需要做理解的视频信息，type 传入 video_url 时需指定，详情请参见 video_url 对象。
image_url 对象
字段
必选
类型
描述
url
是
String
图片 URL 链接。格式要求如下
封装格式：JPG、JPEG、PNG、WebP
文件大小：单图最大10MB，一次请求最多20张图片。
video_url 对象
字段
必选
类型
描述
url
是
String
视频 URL 链接。格式要求如下：
封装格式：MP4、MOV、AVI、WebM
编码格式：H.264、H.265
文件大小：时长最长 10 分钟，文件大小最大 100MB，一次请求仅1个视频。
返回参数
参数名
类型
描述
id
String
请求唯一标识。
object
String
对象类型，固定 chat.completion。
created
Integer
创建时间（Unix 时间戳）。
model
String
实际使用的模型名称。
choices
Array
模型针对同一次请求返回的候选结果列表，详情请参见 choices 数组元素。
usage
Object
详情请参见 usage 对象。
choices 数组元素
字段
类型
描述
index
Integer
选项索引。
message
Object
回复消息，包含 role 和 content。
finish_reason
String
结束原因：stop（正常结束）、length（达到最大长度）、tool_calls（需要调用工具）
usage 对象
字段
类型
描述
prompt_tokens
Integer
输入 Token 数
completion_tokens
Integer
输出 Token 数
total_tokens
Integer
总 Token 数
调用示例
示例1：输入为视频
curl -X POST 'https://tokenhub.tencentmaas.com/v1/chat/completions' \\
  -H 'Authorization: Bearer YOUR_API_KEY' \\
  -H 'Content-Type: application/json' \\
  -d '{
    "model": "youtu-vita",
    "messages": [{"role": "user", "content": [
      {"type": "video_url", "video_url": {"url": "<video url>"}},
      {"type": "text", "text": "请描述视频的内容"}
    ]}],
    "stream": false
  }'
示例2：输入为图片
curl -X POST 'https://tokenhub.tencentmaas.com/v1/chat/completions' \\
  -H 'Authorization: Bearer YOUR_API_KEY' \\
  -H 'Content-Type: application/json' \\
  -d '{
    "model": "youtu-vita",
    "messages": [{"role": "user", "content": [
      {"type": "image_url", "image_url": {"url": "<image url 1>"}},
      {"type": "image_url", "image_url": {"url": "<image url 2>"}}, 
      {"type": "text", "text": "请描述图片的内容"}
    ]}],
    "stream": false
  }'
说明：
图片输入限制：TY-VITA 支持一次传入多张图片，HY-Vision 一次仅可传入单张图片。

模型名称	model 参数	视频理解	图片理解
YT-VITA	youtu-vita	支持对视频的画面和音频做理解	支持
HY-Vision-2.0-Instruct	hy-vision-2.0-instruct	不支持	支持
HY-Vision-1.5-Thinking	hunyuan-t1-vision-20250916	不支持	支持
HY-Vision-Video	hunyuan-turbos-vision-video-20250728	支持对视频的画面做理解	不支持

参数名	必选	类型	描述
model	是	String	服务 ID，可统一从在线推理服务、服务 ID 字段查看。对于平台默认创建的服务，服务 ID 与模型名称相同，例如：`youtu-vita`。对于用户创建的自定义服务，服务 ID 格式为：`ep-xxxxxxxx`，可在在线推理服务页面查看。
messages	是	Array	需要理解的内容，详细信息请参见 messages 参数说明。
stream	否	Boolean	是否启用流式输出。取值范围：`true / false`，默认值为 `false`。
temperature	否	Float	输出随机性。取值范围：`[0.0, 2.0]`。
top_p	否	Float	输出多样性（核采样）。取值范围：`[0.0, 1.0]`。
max_tokens	否	Integer	限制最大输出 Token 数。
stop	否	Array of String	指定模型输出的停止序列。当生成结果命中任一指定序列时，模型将停止输出，且响应内容中不包含该停止序列。支持传入单个字符串或字符串数组，最多 4 个。例如：让模型生成一个 10 条的清单，若不希望继续输出第 11 条，此处可填写为：["11."] 。

字段	必选	类型	描述
role	是	String	角色：`user`（用户）
content	是	Array of	需要理解的内容，详细信息请参见 content 参数说明。

多模态理解

本页目录：

概述

模型功能概览

OpenAI API 使用

BaseURL

请求参数

messages 参数说明

content 参数说明

image_url 对象

video_url 对象

返回参数

choices 数组元素

usage 对象

调用示例

示例1：输入为视频

示例2：输入为图片