图像识别多模态理解调用方式

多模态理解模型 VITA 接口兼容 OpenAI Completions API 协议，您可以直接使用 OpenAI SDK 或任何兼容客户端接入。
接口信息
请求地址：https://api.vita.cloud.tencent.com/v1/video2text/chat/completions
请求方式：POST
Content-Type：application/json
默认并发：5并发
支持的内容形态：图片、视频
请求参数
Header 参数
参数名
类型
必填
描述
Authorization
string
是
格式：Bearer {token}。
在 产品控制台 的 VITA 图像理解 - 服务管理 页面创建和获取 API KEY 的值并填入。
Content-Type
string
是
请求体类型，固定值：application/json
Accept
string
否
接受的响应类型，默认：*/*
Connection
string
否
连接方式，建议：keep-alive
Body 参数
参数名
类型
必填
描述
model
String
是
调用的模型参数，取值范围：vita-video-3.0 / vita-video-long。
推荐值：vita-video-3.0
messages
Array
是
需要理解的内容，详细信息请参见 messages 参数说明。
stream
Boolean
否
是否启用流式输出，取值范围：true / false。
默认值：false。
temperature
Float
否
温度参数，控制生成文本的多样性，取值范围：[0.0, 2.0]。
top_p
Float
否
核采样参数，控制模型生成文本的多样性，取值范围：[0.0, 1.0]。
messages 参数说明
参数名
类型
必填
描述
role
String
是
输入值：user
content
Array
是
需要理解的内容，支持图片和视频，详情参见 content 参数说明。
content 参数说明
参数名
类型
必填
描述
type
String
是
输入类型：text, image_url, video_url
text
String
是
自定义的理解指令，例如：请描述图片的内容。
image_url
Object
否
需要做理解的图片信息，type 传入 image_url 时需指定，详情请参见 image_url 对象。
video_url
Object
否
需要做理解的视频信息，type 传入 video_url 时需指定，详情请参见 video_url 对象。
image_url 对象
参数名
类型
必填
描述
url
String
是
图片 URL 链接。格式要求如下：
封装格式：JPG、JPEG、PNG、WEBP
文件大小：单图最大10MB，一次请求最多10张图片。
video_url 对象
参数名
类型
必填
描述
url
String
是
视频 URL 链接。格式要求如下：
封装格式：MP4、MOV、AVI、WebM
编码格式：H.264、H.265
文件大小：时长最长 10 分钟，文件大小最大 100MB，一次请求仅1个视频。
返回参数
参数名
类型
描述
id
String
请求唯一标识，32位十六进制字符串。
object
String
对象类型，固定 chat.completion。
created
Integer
创建时间（Unix 时间戳）。
model
String
实际使用的模型名称，如 vita-video-3.0
choices
Array
模型针对同一次请求返回的候选结果列表，详情请参见 choices 数组元素。
usage
Object
详情请参见 usage 对象。
choices 数组元素
参数名
类型
描述
index
Integer
选项索引。
message
Object
回复消息，包含 role 和 content。
finish_reason
String
结束原因：stop（正常结束）、length（达到最大长度）、tool_calls（需要调用工具）
usage 对象
参数名
类型
描述
prompt_tokens
Integer
输入 Token 数
completion_tokens
Integer
输出 Token 数
total_tokens
Integer
总 Token 数
调用示例
示例1：图片内容识别
请求示例
curl -X POST 'https://api.vita.cloud.tencent.com/v1/video2text/chat/completions' \
  -H 'Authorization: Bearer YOUR_API_KEY' \
  -H 'Content-Type: application/json' \
  -d '{
    "model": "vita-video-3.0",
    "messages": [{"role": "user", "content": [
      {"type": "image_url", "image_url": {"url": "<image url>"}},
      {"type": "text", "text": "请描述图片的内容"}
    ]}],
    "stream": false
  }'
返回示例
{
  "id": "0618112664aa56bbfed859db699a1972",
  "object": "chat.completion",
  "created": 1779184723,
  "model": "vita-video-3.0",
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "这张图片中有一个穿着冬季服装的蓝发女孩，她戴着毛线帽和围巾，看起来非常保暖。"
      },
      "finish_reason": "stop"
    }
  ],
  "usage": {
    "prompt_tokens": 1171,
    "completion_tokens": 101,
    "total_tokens": 1272,
    "prompt_tokens_details": {
      "cached_tokens": 0
    },
    "completion_tokens_details": {
      "reasoning_tokens": 0
    }
  }
}
示例2：视频内容识别
请求示例
curl -X POST 'https://api.vita.cloud.tencent.com/v1/video2text/chat/completions' \
  -H 'Authorization: Bearer YOUR_API_KEY' \
  -H 'Content-Type: application/json' \
  -d '{
    "model": "vita-video-3.0",
    "messages": [{"role": "user", "content": [
      {"type": "video_url", "video_url": {"url": "<video url>"}},
      {"type": "text", "text": "请描述视频的内容"}
    ]}],
    "stream": false
  }'
返回示例
{
  "id": "0618112664aa56bbfed859db699a1871",
  "object": "chat.completion",
  "created": 1779184730,
  "model": "vita-video-3.0",
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "这段视频展示了一个动画场景，背景设定在一个宁静的户外环境中。视频中有一个穿着冬季服装的蓝发女孩，她戴着毛线帽和围巾，看起来非常保暖。她的表情从惊讶到得意再到震惊，显示出情绪的波动。\n\n场景开始时，女孩站在一片开阔的空地上，周围是秋天的树木，树叶呈现出丰富的橙色和黄色。远处可以看到连绵的山脉，天空晴朗，云朵稀疏。\n\n接着，画面切换到两只可爱的柴犬，它们似乎在进行某种互动或游戏。随后，镜头回到女孩身上，她正牵着其中一只狗，而另一只狗在旁边跳跃。\n\n随着情节的发展，女孩被狗拉着向前跑，显得有些吃力。最后，画面模糊，暗示着快速移动或转场。\n\n整个视频充满了轻松愉快的氛围，背景音乐可能是轻快的，与画面的动态相得益彰。"
      },
      "finish_reason": "stop"
    }
  ],
  "usage": {
    "prompt_tokens": 11716,
    "completion_tokens": 171,
    "total_tokens": 11887,
    "prompt_tokens_details": {
      "cached_tokens": 0
    },
    "completion_tokens_details": {
      "reasoning_tokens": 0
    }
  }
}
﻿

参数名	类型	必填	描述
Authorization	string	是	格式：Bearer {token}。在产品控制台的 VITA 图像理解 - 服务管理页面创建和获取 API KEY 的值并填入。
Content-Type	string	是	请求体类型，固定值：application/json
Accept	string	否	接受的响应类型，默认：/
Connection	string	否	连接方式，建议：keep-alive

多模态理解调用方式

本页目录：

接口信息

请求参数

Header 参数

Body 参数

messages 参数说明

content 参数说明

image_url 对象

video_url 对象

返回参数

choices 数组元素

usage 对象

调用示例

示例1：图片内容识别

请求示例

返回示例

示例2：视频内容识别

请求示例

返回示例