首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

不过年?DeepSeek继续整活,推出统一多模态理解与生成模型

这是停不下了,小编还要过年啊,DeepSeek 刚刚发布了另一个开源人工智能模型 Janus-Pro-7B,它是多模态模型(可以生成图像),在 GenEval 和 DPG-Bench 基准测试中击败了 OpenAI 的 DALL-E 3 和 Stable Diffusion

重要的是,只有7B!普通电脑都能运行试试了!

主要特点与优势

Janus-Pro 的核心创新在于其解耦的视觉编码框架。传统的多模态模型通常将视觉编码功能同时用于理解和生成,这可能会导致性能瓶颈和任务冲突。Janus-Pro 通过将视觉编码解耦到不同的路径,克服了这一局限性,同时仍然采用统一的 Transformer 架构进行处理。

这种解耦设计带来了以下显著优势:

增强灵活性:模型在理解和生成任务之间更加灵活,能够更好地适应不同的多模态应用场景

卓越性能:Janus-Pro 不仅超越了以往的统一模型,还在特定任务上达到了甚至超过了专门模型的性能水平

简洁高效:模型架构的简洁性和高效性使其成为下一代多模态模型的理想选择

性能表现

Janus-Pro 在多项基准测试中的出色表现:

多模态理解基准 :在多模态理解方面,Janus-Pro 家族模型表现出优异的平均性能,显著高于 LLaVA 家族等其他模型

文本到图像生成基准:在 GenEval 和 DPG-Bench 基准测试中,Janus-Pro 7B 的准确率均超过 84%,与 SDXL、DALL-E 3 等知名模型处于同一水平,甚至更高

图像生成示例

Janus-Pro 及其前身 Janus 在文本到图像生成方面的对比。结果表明,Janus-Pro 在以下方面取得了显著提升:

更稳定的输出:对于简短的提示词,Janus-Pro 能够生成更稳定的图像结果

更高的视觉质量:生成的图像具有更高的清晰度和视觉吸引力

更丰富的细节:图像细节更加丰富,更贴近文本描述

简单的文本生成能力:Janus-Pro 增加了生成简单文本的能力,例如示例中的 “Hello”

模型架构与技术细节

Janus-Pro 是一个统一的理解和生成多模态大型语言模型 (MLLM),它基于 DeepSeek-LLM-1.5b-base 或 DeepSeek-LLM-7b-base 构建

视觉编码器:模型使用SigLIP-L作为视觉编码器,支持 384x384 像素的图像输入。

图像生成 Tokenizer:Janus-Pro 使用来自https://github.com/FoundationVision/LlamaGen的 tokenizer,并采用 16 倍的下采样率。

快速开始与使用

提供了 GitHub 仓库的链接,用户可以访问仓库获取更详细的代码、使用指南以及模型下载地址

https://github.com/deepseek-ai/Janus?tab=readme-ov-file#janus-pro

许可与引用

Janus-Pro 的代码仓库采用MIT 许可证,模型本身的使用受到DeepSeek 模型许可证的约束。

如果您在研究或应用中使用了 Janus-Pro 模型,按照以下格式进行引用:

@misc{chen2025januspro,

title={Janus-Pro: Unified Multimodal Understanding and Generatior},

author={Xiaokang Chen and Zhiyu Wu and Xingchao Liu and Zizheng F},

year=2025},

}

⭐星标AI寒武纪,好内容不错过⭐

用你的赞和在看告诉我~

求赞

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OWocZ0MDiZWKvRNUbp6d_UQg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券