首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >一个索引,所有媒体:介绍 jina-embeddings-v5-omni

一个索引,所有媒体:介绍 jina-embeddings-v5-omni

原创
作者头像
点火三周
修改2026-06-18 13:23:47
修改2026-06-18 13:23:47
600
举报
文章被收录于专栏:Elastic Stack专栏Elastic Stack专栏

jina-embeddings-v5-omni 将文本、图像、视频和音频整合到单个 Elasticsearch 索引中。它扩展了同类最佳的 jina-embeddings-v5-text 模型,通过创新的架构在 v5-omni 套件中增加了视觉和音频编码,保持了相同的文本骨干网络,从而在非常紧凑的 嵌入模型 中提供了前沿性能。

现在,您可以为 文本、图像、视频和音频录音 创建高性能的语义嵌入,覆盖 近 100 种语言,并用于分类、聚类、语义相似度衡量以及检索索引。如果您的数据同时存在于 PDF、录音、视频和文本中,您不再需要为每种数据单独构建流水线。

jina-embeddings-v5-omni 系列是 目前市场上支持图片、语音、印刷品和视频的最紧凑的嵌入模型。它提供:

  • jina-embeddings-v5-text 的前沿文本嵌入,用于检索、分析和 AI 代理应用。
  • 同类尺寸中最佳的视觉语义相似度、视觉理解和图像检索嵌入。 在 10 亿(10⁹)参数规模的模型中,jina-embeddings-v5-omni-small 在图像基准测试中表现最佳,并且优于我们之前的 jina-clip-v2。只有少数参数规模是其三到三十倍的模型能够超越它。
  • 最先进的多语言视觉理解和检索嵌入,击败了甚至大 20 倍的模型。
  • 同类尺寸中最佳的音频嵌入,只有参数数量翻倍或更多的模型在标准基准测试中表现更好。
  • 支持视频,尤其擅长在视频素材中定位物体和事件。

这在信息检索、文档处理和数据分析的所有领域都有应用。jina-embeddings-v5-omni 打开了存储在不同媒体孤岛中的信息访问通道,使其可供检索、分析以及被 AI 代理使用。音频和视频录音、PDF、打印页面扫描件、信息图等媒体形式,在您的数据生态系统中与数字化文本处于同等地位。

jina-embeddings-v5-text 一样,这些模型提供两种尺寸:smallnano。两个模型都在对应的文本版本基础上,增加了支持音频和视觉输入的额外模块。用户可以在加载时选择模块。此外,针对语义相似度、分类、聚类和信息检索等任务的特定扩展,以紧凑的低秩适配器(LoRA)形式实现,并且这些适配器在加载时全部就绪,用户可以在 推理 时选择使用。

两个模型都非常紧凑。jina-embeddings-v5-omni-small 可以在配置了 GPU 的常规服务器上运行,而 jina-embeddings-v5-omni-nano 则足够小,可以在普通商用硬件上运行。这代表着计算成本的巨大节省,并使得许可本地安装和边缘处理成为可能,从而降低延迟并增强对数据的控制。

v5-omni 套件使用了创新的模型设计和机器学习技术,从先前训练好的模型组合出新的嵌入模型,而无需重新训练它们。我们使用了来自预训练、语言对齐的嵌入模型的编码器(用于音频和视频媒体),作为我们现有 jina-embeddings-v5-text 模型套件的输入预处理器。由此产生的模型生成的图像和声音录音嵌入,与它为文本生成的嵌入在语义上是兼容的。

v5-omni 模型生成的文本嵌入与 jina-embeddings-v5-text 完全相同(即 jina-embeddings-v5-omni-smalljina-embeddings-v5-text-small 相同;jina-embeddings-v5-omni-nanojina-embeddings-v5-text-nano 相同),因此您可以将现有的文本检索存储库扩展到多媒体应用,而无需重建索引。

集成的编码器全部来源于开源权重。对于图像和视频,我们使用了 Qwen3.5 模型中的编码器:

我们通过训练好的跨模态投影器(cross-modal projectors),将这些特定媒体的编码器连接到文本处理骨干网络。这些投影器将其原生输出转换为与 jina-embeddings-v5-text 兼容的输入嵌入。jina-embeddings-v5-omni 模型中唯一经过全新训练的部分就是这些投影器中的权重。

jina-embeddings-v5-omni 模型架构示意图。只有跨媒体投影器经历了新的训练。

这种架构意味着我们只需要训练跨模态投影器:对于 jina-embeddings-v5-omni-small,大约 550 万个参数;对于 jina-embeddings-v5-omni-nano,不到 350 万个参数(每个 LoRA 适配器)。这种方法最小化了连接不同嵌入模型所需的额外训练,利用了每个模型的专门训练,从而产生一个极其紧凑、高性能、模块化的嵌入套件。

选定的模型属性

输入/输出

模型名称

输入上下文窗口大小

嵌入维度

jina-embeddings-v5-omni-small

32,768 个 token*

1024 维(最小:32)

jina-embeddings-v5-omni-nano

8,192 个 token*

768 维(最小:32)

* 关于非文本媒体如何 token 化,请参阅下面的 使用 jina-embeddings-v5-omni

模型大小

模型名称

总大小

jina-embeddings-v5-omni-small(纯文本基础模型 + 4 个 LoRA 适配器)

7 亿参数

图像/视频支持(从 Qwen3.5-2B 中提取的 SigLIP2 So400m 编码器)

10.06 亿参数

音频支持(从 Qwen2.5-Omni-7B 中提取的 Whisper-large-v3 编码器)

13.54 亿参数

两者兼具

16.6 亿参数

LoRA 适配器(每个)

2000 万参数

jina-embeddings-v5-omni-nano(纯文本基础模型 + 4 个 LoRA 适配器)

2.66 亿参数

图像/视频支持(从 Qwen3.5-0.8B 中提取的 SigLIP2 Base 编码器)

3.54 亿参数

音频支持(从 Qwen2.5-Omni-7B 中提取的 Whisper-large-v3 编码器)

9.16 亿参数

两者兼具

10.04 亿参数

LoRA 适配器(每个)

700 万参数

* 关于非文本媒体如何 token 化,请参阅下面的 使用 jina-embeddings-v5-omni

任务特定训练

jina-embeddings-v5-omni 系列支持与 jina-embeddings-v5-text 相同的任务特定 LoRA 适配器:

任务

示例用途

检索

信息检索,可单独使用或与其他检索及候选评估技术结合使用。使用 v5-omni 模型,您可以在一个索引中通过一个查询同时检索音频、视频和图像。

聚类

跨所有媒体的主题发现和自动主题组织。

分类

分类、情感分析及相关任务。

语义相似度

跨媒体数据去重、推荐系统、相关媒体查找、匹配文本到语音、识别翻译等任务。

输出的嵌入取决于所选的任务类别。例如,您不应将面向检索的嵌入用于聚类,也不应将语义相似度嵌入用于分类。

多媒体、多模态、多语言、多功能

为了展示 jina-embeddings-v5-omni 的能力,让我们以两本小说的著名开头段落为例,并测量它们的语义相似度:

双城记 (查尔斯·狄更斯)

代码语言:txt
复制
那是最美好的时代,那是最糟糕的时代;
那是智慧的岁月,那是愚昧的岁月;
那是信仰的纪元,那是怀疑的纪元;
那是光明的季节,那是黑暗的季节;
那是希望的春天,那是绝望的冬天;
我们拥有一切,我们一无所有;
我们全都直奔天堂,我们全都直坠地狱——
简而言之,那个时代与现在如此相似,
以至于某些最喧嚣的权威坚持要求,
无论好坏,只能用最高级的比较来接受它。

傲慢与偏见 (简·奥斯汀)

代码语言:txt
复制
凡是有钱的单身汉,总想娶位太太,
这已经成了一条举世公认的真理。
这样的单身汉,每逢新搬到一个地方,
四邻八舍虽然完全不了解他的性情如何,
见解如何,可是,既然这样一条真理早已在人们心目中根深蒂固,
因此人们总是把他看作自己某一个女儿理所应得的一笔财产。

使用 jina-embeddings-v5-omni-small 及其语义相似度适配器,这些文本的相似度为 0.5329

如果没有对比,这个数字意义不大。因此,让我们使用相同的模型和适配器,将这些文本与其法语翻译进行比较:

跨语言文本的语义相似度得分

双城记(英语)

傲慢与偏见(英语)

双城记(法语)(Paris et Londres en 1783,tr. H. Loreau)

0.9095

0.5074

傲慢与偏见(法语)(Orgueil et Préjugés,tr. Leconte et Pressoir)

0.4826

0.8784

这两个文本与其翻译版本的相似度远高于同语言或不同语言的其他文本。这反映了 jina-embeddings-v5-text-small(原样包含在 jina-embeddings-v5-omni-small 中)非常强大的多语言语义嵌入能力。

jina-embeddings-v5-omni 中添加多媒体支持,意味着我们可以将这一实验扩展到完全其他类型的数据。例如,我们获取了两本小说老版印刷版的首页扫描件:

两页泛黄的书页显示了《双城记》和《傲慢与偏见》的开头段落,左侧页面显示的是未注明日期的19世纪版本《双城记》第一章的开头,右侧页面显示的是1903年麦克米伦版《傲慢与偏见》第一章的开头。
两页泛黄的书页显示了《双城记》和《傲慢与偏见》的开头段落,左侧页面显示的是未注明日期的19世纪版本《双城记》第一章的开头,右侧页面显示的是1903年麦克米伦版《傲慢与偏见》第一章的开头。

图 2: 《双城记》,未注明日期的19世纪版本;《傲慢与偏见》,1903年麦克米伦版本。

让我们再次使用语义相似度适配器,将文本与扫描件进行比较:

文本与图像之间的语义相似度得分

双城记(扫描件)

傲慢与偏见(扫描件)

双城记(文本)

0.7336

0.4891

傲慢与偏见(文本)

0.4804

0.7213

您可以看到,语义相似度得分强烈倾向于与图像内容匹配的文本。

我们还可以使用相同的设置,将文本与引用这些段落的社交媒体帖子截图和表情包进行比较:

一条埃隆·马斯克的推特,其中引用了《双城记》中的句子并附有评论,下方有一条引用的推文讨论历史中的循环和线性元素。
一条埃隆·马斯克的推特,其中引用了《双城记》中的句子并附有评论,下方有一条引用的推文讨论历史中的循环和线性元素。
一个亮蓝色背景的图片,上面显示米黄色文字“别保持冷静!他是个拥有大笔财产的单身汉!”顶部有一张小幅照片,照片中一个穿着历史服装的人戴着白色帽子、穿着蕾丝服饰,表情张嘴。
一个亮蓝色背景的图片,上面显示米黄色文字“别保持冷静!他是个拥有大笔财产的单身汉!”顶部有一张小幅照片,照片中一个穿着历史服装的人戴着白色帽子、穿着蕾丝服饰,表情张嘴。

图 3: 一条埃隆·马斯克引用《双城记》的推文,以及一个引用《傲慢与偏见》著名开头语的表情包。

文本与图像之间的语义相似度得分

双城记

傲慢与偏见

马斯克推文(图像)

0.7156

0.4912

“保持冷静”表情包(图像)

0.4555

0.6244

我们也可以对语音做同样的测试。我们获取了两种文本的英语和法语朗读录音:

文本与音频之间的语义相似度得分(跨语言)

双城记(英语音频)

双城记(法语音频)

傲慢与偏见(英语音频)

傲慢与偏见(法语音频)

双城记(英语文本)

0.3816

0.3106

0.1607

0.1774

双城记(法语文本)

0.3528

0.3253

0.1598

好的,我将继续完成剩余内容的翻译和优化。


这种多语言和多媒体的能力也延伸到信息检索。

jina-embeddings-v5-omni 模型的检索适配器实现了不对称检索(asymmetric retrieval)。这意味着它们嵌入查询的方式与嵌入检索目标文档的方式不同,因此跨模态查询总是有方向性的(查询来自一种媒体,文档来自另一种媒体),反向查询时会产生不同的分数。

下表显示了以《双城记》的英文文本作为查询时,对于《双城记》和《傲慢与偏见》的文本、音频和页面扫描图像的检索得分:

文本到文本

文档

检索得分

《双城记》(法文文本摘录)

0.7597

《傲慢与偏见》(英文文本摘录)

0.1482

《傲慢与偏见》(法文文本摘录)

0.0523

文本到图像

文档

检索得分

《双城记》(英文页面扫描)

0.5517

《双城记》(法文页面扫描)

0.3576

《傲慢与偏见》(英文页面扫描)

0.1917

文本到音频

文档

检索得分

《双城记》(英文音频)

0.3277

《双城记》(法文音频)

0.1980

《傲慢与偏见》(英文音频)

0.1419

《傲慢与偏见》(法文音频)

0.1759

用户也可以反过来进行查询,执行音频到文本、图像到文本的检索。

以下是使用《双城记》的英文音频作为查询,不同文本作为文档的得分:

图像到文本

文档

检索得分

《双城记》(英文文本摘录)

0.3352

《双城记》(法文文本摘录)

0.2650

《傲慢与偏见》(英文文本摘录)

0.1626

《傲慢与偏见》(法文文本摘录)

0.1385

以及使用《双城记》(英文)第一页的扫描件作为查询的得分:

音频到文本

文档

检索得分

《双城记》(英文文本摘录)

0.5304

《双城记》(法文文本摘录)

0.4845

《傲慢与偏见》(英文文本摘录)

0.1467

《傲慢与偏见》(法文文本摘录)

0.0761

一个浅蓝色背景的矩形通知框,显示一个黄色警告三角形图标,旁边文字说明 jina-embeddings-v5-omni 被训练用于从文本查询中查找音频、视频和图像,非文本查询可能效果较差。
一个浅蓝色背景的矩形通知框,显示一个黄色警告三角形图标,旁边文字说明 jina-embeddings-v5-omni 被训练用于从文本查询中查找音频、视频和图像,非文本查询可能效果较差。

视频搜索

jina-embeddings-v5-omni 在视频索引和搜索方面的能力为 Elasticsearch 数据库带来了新的功能,但这也伴随着许多与文本相同的警告。为一部长片生成单个嵌入就像嵌入一本非常长的长篇小说一样:详细信息会被淹没,生成的嵌入会与许多非常虚假的查询匹配良好。

如果您嵌入整部《指环王》文本(约50万字),它很可能与大多数查询都匹配得很好,无论您要找什么。同样,如果您索引一部两小时的好莱坞电影,您会得到大量虚假匹配,并且完全错过细节。jina-embeddings-v5-omni 最适合短片段。

在本示例中,我们下载了1961年电影《蒂凡尼的早餐》的预告片,该预告片只有158秒长,且属于公共领域。您可以在 互联网档案库 上观看该预告片。

一张复古的《蒂凡尼的早餐》电影海报,插图中奥黛丽·赫本穿着黑色长裙、黑色手套、戴着珍珠项链、拿着烟嘴,肩上趴着一只猫。背景小插图中一对情侣在城市景观旁拥抱,海报还有彩色边框和演员及制作人员名单。
一张复古的《蒂凡尼的早餐》电影海报,插图中奥黛丽·赫本穿着黑色长裙、黑色手套、戴着珍珠项链、拿着烟嘴,肩上趴着一只猫。背景小插图中一对情侣在城市景观旁拥抱,海报还有彩色边框和演员及制作人员名单。

图4:《蒂凡尼的早餐》的电影海报。

我们使用 PySceneDetect 将预告片分割为28个单独的镜头,每个镜头的长度从1.877秒(45帧)到18.393秒(441帧)不等。镜头检测并不完美,但它提供了一种足够好地将视频分割成便于检索的小块的方法。然后,我们为这28个片段中的每一个生成了文档嵌入,使用了 jina-embeddings-v5-omni-small,以便测试文本查询在寻找视频中特定元素时的有效性。

例如,查询“cat”返回了以下三个最佳匹配片段。包含猫的镜头排在第一位,得分为 0.1634

视频缩略图显示一个人跪在厨房地板上,手伸向打开的冰箱,旁边站着一只猫(得分0.1634)。
视频缩略图显示一个人跪在厨房地板上,手伸向打开的冰箱,旁边站着一只猫(得分0.1634)。

观看片段一

下一个最佳匹配得分 0.1237,明显更低:

视频缩略图显示一个人靠近脸部举着一个彩色面具,叠加的文字是“GEORGE PEPPARD”(得分0.1237)。
视频缩略图显示一个人靠近脸部举着一个彩色面具,叠加的文字是“GEORGE PEPPARD”(得分0.1237)。

观看片段二

您也可以查询动作。如果查询字符串为“kiss”,前四个匹配都包含亲吻场景:

视频缩略图显示室内三个人,左边一个人背对镜头,右边两个人似乎在窗帘和门附近的拥抱(得分0.2864)。
视频缩略图显示室内三个人,左边一个人背对镜头,右边两个人似乎在窗帘和门附近的拥抱(得分0.2864)。

观看片段三 其得分为0.2864。

视频缩略图显示两个人紧靠在一起,一人穿着深色西装,另一人戴着猫形面具(得分0.2494)。
视频缩略图显示两个人紧靠在一起,一人穿着深色西装,另一人戴着猫形面具(得分0.2494)。
视频缩略图显示几个人聚集在热闹的室内环境中,其中一人抱着吉他,其他人似乎在交谈或大笑(得分0.2099)。
视频缩略图显示几个人聚集在热闹的室内环境中,其中一人抱着吉他,其他人似乎在交谈或大笑(得分0.2099)。
视频缩略图显示两个穿着风衣的人在雨中户外拥抱,背景可见停着的汽车和建筑物(得分0.1189)。
视频缩略图显示两个穿着风衣的人在雨中户外拥抱,背景可见停着的汽车和建筑物(得分0.1189)。

得分: 第二匹配 (0.2494), 第三匹配 (0.2099), 第四匹配 (0.2068)。

您还可以搜索视频中显示的文字,例如“Buddy Ebsen”,它只出现了一次。jina-embeddings-v5-omni-small 轻松将其识别为最佳匹配,得分为 0.3885,远高于第二匹配:

视频缩略图显示一个穿西装的男人站在楼梯旁,楼梯有白色栏杆和深色扶手,叠加的文字是“Buddy Ebsen”(得分0.3885)。
视频缩略图显示一个穿西装的男人站在楼梯旁,楼梯有白色栏杆和深色扶手,叠加的文字是“Buddy Ebsen”(得分0.3885)。

Buddy Ebsen 片段

视觉文档检索

Jina AI 的多模态嵌入模型在视觉文档处理方面是顶尖的,在多语言视觉文档处理方面也处于最先进的水平。这意味着处理包含文本、图表和结构化信息的图像数据。重要数据通常以打印扫描件、PDF文件、图表、技术图纸、截图、图片、信息图等形式存在。这类图像通常是机械合成或计算机生成的。它们通常无法在不丢失意义的情况下简化成纯文本,而且对于为自然场景摄影设计的计算视觉模型来说并不合适。

jina-embeddings-v5-omni 的嵌入包含了图像中的事物、其上印刷的文本以及两者之间关系的信息。视觉文档检索使得索引包含事物和相关文字的丰富图像成为可能,并且可以跨语言进行。

作为示例,让我们使用来自各种 电子商务 网站的四张产品图片:

现在,让我们看看 jina-embeddings-v5-omni-small 在查询“ramen noodles”时对这四张图片的评分:

Campbell’s Chunky Chicken Noodle(加拿大包装)

Kraft Dinner(加拿大包装)

Maruchan Miso Flavour Fresh Ramen(日本包装)

Birkel Spaghetti(德国包装)

0.0872

0.0711

0.1123

0.0886

它很快找到了日本的匹配项。

现在,让我们尝试查询“マカロニチーズ”(日语的 macaroni and cheese):

Campbell’s Chunky Chicken Noodle(加拿大包装)

Kraft Dinner(加拿大包装)

Maruchan Miso Flavour Fresh Ramen(日本包装)

Birkel Spaghetti(德国包装)

0.2207

0.3487

0.2760

0.2674

它同样轻松地找到了正确的匹配项,与英语查询一样容易。

jina-embeddings-v5-omni 也擅长解读信息丰富的图像,例如图表。为了展示这一点,请看以下两个条形图:

一个条形图比较了2010年60岁及以上人群疾病负担的主要原因,以百万伤残调整生命年显示,包括心血管疾病、癌症、慢性呼吸系统疾病、肌肉骨骼疾病、神经系统疾病、非故意伤害、糖尿病、消化系统疾病、呼吸道感染和感觉障碍,每个条形分为低收入和中等收入国家以及高收入国家的贡献。
一个条形图比较了2010年60岁及以上人群疾病负担的主要原因,以百万伤残调整生命年显示,包括心血管疾病、癌症、慢性呼吸系统疾病、肌肉骨骼疾病、神经系统疾病、非故意伤害、糖尿病、消化系统疾病、呼吸道感染和感觉障碍,每个条形分为低收入和中等收入国家以及高收入国家的贡献。
一张标题为“不同品种的寿命”的条形图,显示美国猎狐犬、比格犬、巴辛吉犬、巴塞特猎犬、黑褐猎浣熊犬、寻血猎犬、腊肠犬、英国猎狐犬和哈里亚犬的平均寿命(年),蓝色条形从大约10到14年不等。
一张标题为“不同品种的寿命”的条形图,显示美国猎狐犬、比格犬、巴辛吉犬、巴塞特猎犬、黑褐猎浣熊犬、寻血猎犬、腊肠犬、英国猎狐犬和哈里亚犬的平均寿命(年),蓝色条形从大约10到14年不等。

两个图表,左边的图表1关于全球疾病负担,右边的图表2关于狗品种的寿命。

让我们看看它们与两个潜在文本问题的匹配情况,每个问题只与其中一个图表相关,使用 jina-embeddings-v5-omni-small 进行检索:

文本问题

图表1

图表2

“老年人常见的一些医疗问题是什么?”

0.2787

0.1099

“狗能活多久?”

0.1350

0.3564

您也可以反过来搜索,使用图像作为查询来查找文本。下表显示了从相关主题科学论文摘要中提取的目标文档及其使用图表图像作为查询的检索得分:

文本1

文本2

生活在极端贫困中的人口的健康一直是全球发展努力的长期焦点,并且在可持续发展目标时代仍然是优先事项。然而,近二十年来,还没有系统性地尝试量化这一特定人群的负担严重程度和原因。我们估计了世界上最贫困的十亿人口的疾病死亡率(按原因),并将这些比率与高收入人口进行了比较。

伴侣犬是表型最多样化的物种之一。品种之间的变异性不仅延伸到形态和行为方面,还有寿命。尽管如此,很少有研究致力于评估品种间的预期寿命差异或评估寿命系统发育表征的潜力。

图表1

0.2377

0.1357

图表2

0.0673

0.3576

功能特性

可截断嵌入

我们使用 Matryoshka 表示学习 训练了支撑 jina-embeddings-v5-omni 的骨干网络 jina-embeddings-v5-text 模型,因此您可以截断这些模型的文本和多媒体的嵌入。

默认情况下,jina-embeddings-v5-omni-small 生成具有1024维的嵌入,在16位精度下占用2KB存储空间。jina-embeddings-v5-omni-nano 的嵌入有768维,占用约1.5KB。您可以将这些嵌入的大小缩减至32维(64字节),这会一定程度地损失准确性,但会大幅提高处理速度并减少资源成本。通常,将嵌入尺寸减半会使准确率降低约2%,直到128维,低于此维度准确率下降得更快。

可截断的嵌入允许用户根据自己的用例决定准确性、速度和成本之间的最佳权衡。

量化

jina-embeddings-v5-omni 系列还从其 jina-embeddings-v5-text 骨干网络中继承了在 量化 下的好的,我将继续完成剩余内容的翻译和优化。

量化

jina-embeddings-v5-omni 系列还从其 jina-embeddings-v5-text 骨干网络中继承了在 量化 下的稳健性能。通过存储精度较低的数值,这进一步提高了速度,并降低了计算和存储成本。我们已经对这些模型进行了训练,使其能够与 Elasticsearch更好的二进制量化(BBQ)协同工作,以提供与未量化嵌入几乎相同的性能。在 Massive Text Embedding Benchmark(MTEB)检索基准套件上,与完整的16位值相比,二值化处理后性能下降不到3%,同时节省了93%的空间,并显著提高了处理和检索速度。

跨语言性能

jina-embeddings-v5-text 的广泛多语言训练也延续到了 jina-embeddings-v5-omni 上。jina-embeddings-v5-text-small 的预训练覆盖近100种语言,而 jina-embeddings-v5-text-nano 的预训练覆盖15种主要全球语言。对于音频媒体,Whisper-large-v3 模型在其训练中包含了大约100种语言,并且集成到 jina-embeddings-v5-omni-small-nano 中的、由 Qwen 修改的 SigLip2 视觉模型,使用了来自201种不同语言和方言的数据进行训练。

基准性能

文本

jina-embeddings-v5-omni 模型在仅用于文本时,与 jina-embeddings-v5-text 模型完全相同。在 MMTEB基准 套件中,它们在各自尺寸类别中,是语义文本嵌入的顶级性能模型。

一个条形折线图比较了九种嵌入模型的 MMTEB 得分和参数大小,其中 jina-v3-omni-small 获得了最高分,而 snowflake-arctic-embed-l-v2 的尺寸最小。
一个条形折线图比较了九种嵌入模型的 MMTEB 得分和参数大小,其中 jina-v3-omni-small 获得了最高分,而 snowflake-arctic-embed-l-v2 的尺寸最小。

图 5jina-embeddings-v5-omni 在文本基准测试中的大小和性能,与其他竞品模型的比较。所引用的大小不包括为其他媒体加载的扩展。

视觉语义相似度

在标准的视觉语义相似度基准测试中,jina-embeddings-v5-omni 在与其大小相近的所有模型中提供了最佳得分。jina-embeddings-v5-omni 模型在可比的公开开源权重模型中表现出迄今为止最佳的性能。在视觉语义相似度任务上,jina-embeddings-v5-omni-small 仅被一个大小是其三倍的模型超越,而 jina-embeddings-v5-omni-nano 仅被 jina-embeddings-v5-omni-small 以及大小是其10到25倍的模型超越。

一个条形折线图比较了七种嵌入模型的视觉语义相似度得分和参数大小,其中 jina-embeddings-v5-omni-small 获得了最高的相似度分数,而 laion/CLIP-ViT-bigG-14 的模型尺寸最大。
一个条形折线图比较了七种嵌入模型的视觉语义相似度得分和参数大小,其中 jina-embeddings-v5-omni-small 获得了最高的相似度分数,而 laion/CLIP-ViT-bigG-14 的模型尺寸最大。

图 6jina-embeddings-v5-omni-smalljina-embeddings-v5-omni-nano 以及可比模型的视觉语义相似度基准平均得分,以及它们包含视觉扩展后的大小。

视觉文档检索

jina-embeddings-v5-omni-small 与30亿和70亿参数模型具有竞争力,同时其自身参数规模保持在10亿以下。jina-embeddings-v5-omni-nano 同样因其尺寸而脱颖而出,击败了其10到60倍大小的模型。

一个条形折线图比较了多个嵌入模型选定的 ViDoRe 得分和参数大小,其中 LCO-Embedding-Omni-7B 达到最高分,laion/CLIP-ViT-bigG-14 模型尺寸最大,同时重点关注两个 jina-embeddings 模型。
一个条形折线图比较了多个嵌入模型选定的 ViDoRe 得分和参数大小,其中 LCO-Embedding-Omni-7B 达到最高分,laion/CLIP-ViT-bigG-14 模型尺寸最大,同时重点关注两个 jina-embeddings 模型。

图 7:在六个基准测试(DocVQAInfoVQAShiftProjSynAITabfquadTatDQA)上的平均 ViDoRe 视觉文档检索 得分。

音频检索

在标准的 MAEB(Massive Audio Embedding Benchmark)音频检索基准测试中,jina-embeddings-v5-omni-smalljina-embeddings-v5-omni-nano 都位列顶级性能模型。只有非常大的模型(大小超过 jina-embeddings-v5-omni-small 三倍以上)才能超越其得分。

一个条形和折线图,x轴比较了嵌入和音频模型,左y轴显示蓝色条形代表 MAEB 得分,右y轴显示红色线代表模型大小(以十亿参数计)。条形范围从大约20到55,线范围从0到10。
一个条形和折线图,x轴比较了嵌入和音频模型,左y轴显示蓝色条形代表 MAEB 得分,右y轴显示红色线代表模型大小(以十亿参数计)。条形范围从大约20到55,线范围从0到10。

图 8:各个模型在 MAEB 音频检索基准上的平均得分。

尽管 LAION 的 larger_clap_general 模型在参数较少的情况下确实改进了 jina-embeddings-v5-omni-nano 的得分,但它是一个纯音频模型,不具备 v5-omni 套件的任何额外多模态功能。

视频

在视频方面,jina-embeddings-v5-omni-small 非常擅长在视频中查找与文本查询匹配的位置。Charades-STA 和 MomentSeeker 测试是此任务的标准基准,您可以从下面的图表中看到,尽管 jina-embeddings-v5-omni-small 的规模远小于其他模型,但在可比的开放权重模型中,它得分最高。

一个条形和折线图显示了六种嵌入模型的 Charades-STA 得分和模型大小。x轴列出了模型,左y轴显示 Charades-STA 得分范围从20到60,右y轴显示模型大小(以十亿参数计)范围从0到10。蓝色条形代表得分,带有标记的红色线代表模型大小。
一个条形和折线图显示了六种嵌入模型的 Charades-STA 得分和模型大小。x轴列出了模型,左y轴显示 Charades-STA 得分范围从20到60,右y轴显示模型大小(以十亿参数计)范围从0到10。蓝色条形代表得分,带有标记的红色线代表模型大小。

图 9:各个模型的 Charades-STA 得分及其大小。

一个条形和折线图使用 MomentSeeker 得分和模型大小比较了六种嵌入模型。x轴列出了模型,左y轴显示 MomentSeeker 得分范围大约从44到60,右y轴显示模型大小(以十亿参数计)范围从0到10。蓝色条形代表得分,带有标记的红色线代表模型大小。
一个条形和折线图使用 MomentSeeker 得分和模型大小比较了六种嵌入模型。x轴列出了模型,左y轴显示 MomentSeeker 得分范围大约从44到60,右y轴显示模型大小(以十亿参数计)范围从0到10。蓝色条形代表得分,带有标记的红色线代表模型大小。

图 10:各个模型的 MomentSeeker 得分及其大小。

我们还将 jina-embeddings-v5-omni-small 与字节跳动的 Seed 1.6(一个参数数量未公开的闭源权重模型)进行了比较。我们的模型在 Charades-STA 基准上大幅 击败 了 Seed 1.6,并在 MomentSeeker 上与其几乎持平。

模型

Charades-STA 得分

MomentSeeker 得分

seed-1.6-embedding

29.30

59.30

jina-embeddings-v5-omni-small

55.57

58.93

优势与局限

jina-embeddings-v5-omni 模型以多种方式扩展了用户索引、搜索和分析数字化信息的能力,特别是:

  • 根据文本查询进行多语言语音检索。
  • PDF、扫描件和视觉文档搜索。
  • 视频时间定位,即识别视频中与自然语言文本描述匹配的部分。
  • 音频流派分类,包括音乐流派。
  • 基于场景信息和物体识别的图像分类。

在其他一些领域性能较为有限。可能可以使用 jina-embeddings-v5-omni 执行这些任务,但我们没有为此进行训练,结果可能不佳。

我们正在积极努力改进我们在以下领域的技术:

  • 根据自然语言描述查找特定视频。
  • 图像到图像的语义相似度和检索。
  • 语音中的意图分类,例如识别语音命令。
  • 处理混合媒体输入,即图像与附带文本,或音频、图像和文本的组合。

使用方法

该模型套件通过三种入口点支持输入:文本、音频、以及图像和视频(共用一个入口点)。jina-embeddings-v5-omni 在一个框架内运行,该框架可以转换多种标准格式并进行其他预处理。

我们使用与 SigLip2 初始版本中相同的 NaFlex 方法 处理图像:如果输入小于 262,144 像素(相当于 512x512),则放大至超过该最小值;如果大于 3,072,000 像素,则缩小至小于该最大值。转换过程确保图像的宽度和高度都是 14 像素的倍数,并且尽可能保持宽高比不变。结果被分割成 28x28 像素的块(patches),因此 patch 的总数就是覆盖图像所需的 28x28 方块的数量。每个 patch 在推理时被视为一个 token,并且每个图像输入都附带特殊的开始和结束标记以分隔单个图像。

一个浅蓝色背景的矩形通知框,显示一个黄色警告三角形图标,旁边文字说明 jina-embeddings-v5-omni 被训练用于从文本查询中查找音频、视频和图像,非文本查询可能效果较差。
一个浅蓝色背景的矩形通知框,显示一个黄色警告三角形图标,旁边文字说明 jina-embeddings-v5-omni 被训练用于从文本查询中查找音频、视频和图像,非文本查询可能效果较差。

全媒体警告

jina-embeddings-v5-omni 模型以与图像相同的方式修改视频分辨率(见上文),并且我们从视频中提取最多 32 帧。如果视频超过 32 帧(这很常见,因为标准格式通常至少为每秒 24 帧),我们均匀地抽取这些帧。然后,对于每两帧,视频预处理器生成一组 token,其数量等于覆盖视频所需的 28x28 方块数。

一系列连续的视频帧缩略图用箭头排列显示进程,描绘了奥黛丽·赫本在不同时刻的一系列场景,最后以显示“Breakfast at Tiffany's”标题卡片的帧结束。布局说明该模型从视频中提取 64 个等距帧,当视频较长时,这可能导致大量内容丢失。
一系列连续的视频帧缩略图用箭头排列显示进程,描绘了奥黛丽·赫本在不同时刻的一系列场景,最后以显示“Breakfast at Tiffany's”标题卡片的帧结束。布局说明该模型从视频中提取 64 个等距帧,当视频较长时,这可能导致大量内容丢失。

图 11: jina-embeddings-v5-omni 从视频中提取 32 个等距帧。如果您的视频很长,这意味着大量内容会丢失。

有关视频预处理的更多详细信息,请参阅 SigLip2 技术文档

音频的 token 化遵循 Qwen-2.5-Omni 内置的方法:声音文件被切成 30 秒的片段;如果超过 30 秒,则重新采样为 16kHz,转换为 128 通道的梅尔频谱图。每 40 毫秒被视为一个 token,因此每个 30 秒片段被处理为 750 个 token(每个 token 对应 40 毫秒音频),外加特殊的开始和结束标记以分隔单个样本。

有关音频预处理的更多详细信息,请参阅 Qwen-2.5-Omni 技术报告

可用性

jina-embeddings-v5-omni-smalljina-embeddings-v5-omni-nano 都可以通过 Elastic 推理服务 (EIS)、Jina API 以及通过下载进行本地安装(smallnano)获得。模型权重在非商业许可下免费分发以进行试用。商业用途请联系 Elastic 销售

快速开始

要使用 jina-embeddings-v5-omni 处理文本,您可以像使用 jina-embeddings-v5-text 一样,集成 semantic_text 字段。只需将 inference_id 设置为 .jina-embeddings-v5-omni-small.jina-embeddings-v5-omni-nano。请参阅 参考指南 了解具体操作。

要使用 jina-embeddings-v5-omni 嵌入其他媒体,您需要 使用推理 API。例如:

代码语言:json
复制
POST _inference/embedding/.jina-embeddings-v5-omni-small
{
  "input": [
    {
      "content": {
        "type": "image",
        "format": "base64",
        "value": "data:image/jpeg;base64,..."
      }
    },
    {
      "content": {
        "type": "text",
        "value": "Some text to create an embedding"
      }
    }
  ]
}

对于 jina-embeddings-v5-omni-nano,将 POST URI 更改为 _inference/embedding/.jina-embeddings-v5-omni-nano

要对其他媒体中的文档进行编码,或生成用于分类或聚类的嵌入,您需要 使用 jinaai 服务创建一个推理端点

对于查询,请使用如下示例中的查询构建器。将 inference_id 值替换为 .jina-embeddings-v5-omni-nano 可使用 nano 模型替代 small

代码语言:json
复制
POST my-index/_search
{
  "knn": {
    "field": "dense-vector-field",
    "k": 10,
    "num_candidates": 100,
    "query_vector_builder": {
      "embedding": {
        "inference_id": ".jina-embeddings-v5-omni-small",
        "input": {
          "type": "image",
          "format": "base64",
          "value": "data:image/jpeg;base64,..."
        }
      }
    }
  }
}

请参阅查询构建器文档了解更多信息。

要使用 BBQ 与 jina-embeddings-v5-omni,请遵循 BBQ 索引的说明

更多信息

有关 jina-embeddings-v5-omni 的更多信息,请参阅该模型的技术报告Jina AI 网站上的页面。此外,Hugging Face 上的 jina-embeddings-v5-omni 集合页面也包含技术信息以及在本地下载和运行这些模型的说明。jina-embeddings-v5-omni 模型可在 CC-BY-NC-4.0 许可证下下载,因此您可以免费试用,但商业用途请联系 Elastic 销售。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 选定的模型属性
    • 输入/输出
    • 模型大小
  • 任务特定训练
  • 多媒体、多模态、多语言、多功能
  • 视频搜索
  • 视觉文档检索
  • 功能特性
    • 可截断嵌入
    • 量化
    • 量化
    • 跨语言性能
  • 基准性能
    • 文本
    • 视觉语义相似度
    • 视觉文档检索
    • 音频检索
    • 视频
  • 优势与局限
  • 使用方法
  • 可用性
  • 快速开始
  • 更多信息
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档