多模态理解模型 VITA 接口兼容 OpenAI Completions API 协议,您可以直接使用 OpenAI SDK 或任何兼容客户端接入。
接口信息
请求地址:
https://api.vita.cloud.tencent.com/v1/video2text/chat/completions请求方式:POST
Content-Type:application/json
默认并发:5并发
支持的内容形态:图片、视频
请求参数
Header 参数
参数名 | 类型 | 必填 | 描述 |
Authorization | string | 是 | 格式:Bearer {token}。 |
Content-Type | string | 是 | 请求体类型,固定值:application/json |
Accept | string | 否 | 接受的响应类型,默认:*/* |
Connection | string | 否 | 连接方式,建议:keep-alive |
Body 参数
参数名 | 类型 | 必填 | 描述 |
model | String | 是 | 调用的模型参数,取值范围:vita-video-3.0 / vita-video-long。 推荐值:vita-video-3.0 |
messages | Array | 是 | 需要理解的内容,详细信息请参见 messages 参数说明。 |
stream | Boolean | 否 | 是否启用流式输出,取值范围:true / false。 默认值:false。 |
temperature | Float | 否 | 温度参数,控制生成文本的多样性,取值范围:[0.0, 2.0]。 |
top_p | Float | 否 | 核采样参数,控制模型生成文本的多样性,取值范围:[0.0, 1.0]。 |
messages 参数说明
参数名 | 类型 | 必填 | 描述 |
role | String | 是 | 输入值:user |
content | Array | 是 | 需要理解的内容,支持图片和视频,详情参见 content 参数说明。 |
content 参数说明
参数名 | 类型 | 必填 | 描述 |
type | String | 是 | 输入类型:text, image_url, video_url |
text | String | 是 | 自定义的理解指令,例如:请描述图片的内容。 |
image_url | Object | 否 | 需要做理解的图片信息,type 传入 image_url 时需指定,详情请参见 image_url 对象。 |
video_url | Object | 否 | 需要做理解的视频信息,type 传入 video_url 时需指定,详情请参见 video_url 对象。 |
image_url 对象
参数名 | 类型 | 必填 | 描述 |
url | String | 是 | 图片 URL 链接。格式要求如下: 封装格式:JPG、JPEG、PNG、WEBP 文件大小:单图最大10MB,一次请求最多10张图片。 |
video_url 对象
参数名 | 类型 | 必填 | 描述 |
url | String | 是 | 视频 URL 链接。格式要求如下: 封装格式:MP4、MOV、AVI、WebM 编码格式:H.264、H.265 文件大小:时长最长 10 分钟,文件大小最大 100MB,一次请求仅1个视频。 |
返回参数
参数名 | 类型 | 描述 |
id | String | 请求唯一标识,32位十六进制字符串。 |
object | String | 对象类型,固定 chat.completion。 |
created | Integer | 创建时间(Unix 时间戳)。 |
model | String | 实际使用的模型名称,如 vita-video-3.0 |
choices | Array | 模型针对同一次请求返回的候选结果列表,详情请参见 choices 数组元素。 |
usage | Object | 详情请参见 usage 对象。 |
choices 数组元素
参数名 | 类型 | 描述 |
index | Integer | 选项索引。 |
message | Object | 回复消息,包含 role 和 content。 |
finish_reason | String | 结束原因:stop(正常结束)、length(达到最大长度)、tool_calls(需要调用工具) |
usage 对象
参数名 | 类型 | 描述 |
prompt_tokens | Integer | 输入 Token 数 |
completion_tokens | Integer | 输出 Token 数 |
total_tokens | Integer | 总 Token 数 |
调用示例
示例1:图片内容识别
请求示例
curl -X POST 'https://api.vita.cloud.tencent.com/v1/video2text/chat/completions' \-H 'Authorization: Bearer YOUR_API_KEY' \-H 'Content-Type: application/json' \-d '{"model": "vita-video-3.0","messages": [{"role": "user", "content": [{"type": "image_url", "image_url": {"url": "<image url>"}},{"type": "text", "text": "请描述图片的内容"}]}],"stream": false}'
返回示例
{"id": "0618112664aa56bbfed859db699a1972","object": "chat.completion","created": 1779184723,"model": "vita-video-3.0","choices": [{"index": 0,"message": {"role": "assistant","content": "这张图片中有一个穿着冬季服装的蓝发女孩,她戴着毛线帽和围巾,看起来非常保暖。"},"finish_reason": "stop"}],"usage": {"prompt_tokens": 1171,"completion_tokens": 101,"total_tokens": 1272,"prompt_tokens_details": {"cached_tokens": 0},"completion_tokens_details": {"reasoning_tokens": 0}}}
示例2:视频内容识别
请求示例
curl -X POST 'https://api.vita.cloud.tencent.com/v1/video2text/chat/completions' \-H 'Authorization: Bearer YOUR_API_KEY' \-H 'Content-Type: application/json' \-d '{"model": "vita-video-3.0","messages": [{"role": "user", "content": [{"type": "video_url", "video_url": {"url": "<video url>"}},{"type": "text", "text": "请描述视频的内容"}]}],"stream": false}'
返回示例
{"id": "0618112664aa56bbfed859db699a1871","object": "chat.completion","created": 1779184730,"model": "vita-video-3.0","choices": [{"index": 0,"message": {"role": "assistant","content": "这段视频展示了一个动画场景,背景设定在一个宁静的户外环境中。视频中有一个穿着冬季服装的蓝发女孩,她戴着毛线帽和围巾,看起来非常保暖。她的表情从惊讶到得意再到震惊,显示出情绪的波动。\n\n场景开始时,女孩站在一片开阔的空地上,周围是秋天的树木,树叶呈现出丰富的橙色和黄色。远处可以看到连绵的山脉,天空晴朗,云朵稀疏。\n\n接着,画面切换到两只可爱的柴犬,它们似乎在进行某种互动或游戏。随后,镜头回到女孩身上,她正牵着其中一只狗,而另一只狗在旁边跳跃。\n\n随着情节的发展,女孩被狗拉着向前跑,显得有些吃力。最后,画面模糊,暗示着快速移动或转场。\n\n整个视频充满了轻松愉快的氛围,背景音乐可能是轻快的,与画面的动态相得益彰。"},"finish_reason": "stop"}],"usage": {"prompt_tokens": 11716,"completion_tokens": 171,"total_tokens": 11887,"prompt_tokens_details": {"cached_tokens": 0},"completion_tokens_details": {"reasoning_tokens": 0}}}