Janus-Pro-7B，视觉模型领先Stable Diffusion和OpenAI的DALL-E 3

文章来源：企鹅号 - 星华梦

在AI技术的前沿，DeepSeek再次证明了其在多模态领域的创新能力。最近，DeepSeek宣布开源了一款全新的视觉多模态模型——Janus-Pro-7B，该模型在GenEval和DPG-Bench等基准测试中，表现超越了行业内知名的Stable Diffusion和OpenAI的DALL-E 3。这一成果不仅标志着DeepSeek在技术上的重大突破，也预示着视觉理解和生成领域的新一轮竞争即将展开。

Janus-Pro-7B作为一款先进的多模态模型，旨在通过统一框架解决视觉理解与生成的问题。它能够处理复杂的图像信息，并基于输入的文本描述生成高质量的图像内容。DeepSeek团队在设计Janus-Pro-7B时，特别关注于提升模型的泛化能力和细节捕捉能力，使其在各种应用场景中都能保持优异的表现。此外，由于采用了最新的训练技术和优化算法，Janus-Pro-7B在效率上也有显著提升，这使得它在实际应用中更具吸引力。

DeepSeek于2025年1月28日凌晨宣布开源其全新的视觉多模态模型Janus-Pro-7B。该模型在GenEval和DPG-Bench基准测试中表现优异，击败了Stable Diffusion和OpenAI的DALL-E 3。

Janus-Pro-7B的特点

• 自回归框架：Janus-Pro采用新颖的自回归框架，将多模态理解和生成能力统一起来。

• 视觉编码器：在多模态理解任务中，Janus-Pro使用SigLIP-L作为视觉编码器，支持384×384像素的图像输入。

• 生成模块：在图像生成任务中，Janus-Pro使用特定的分词器，降采样率为16。

• 开源与灵活性：该模型基于

DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base构建，具有较高的灵活性和扩展性。

性能表现

在GenEval和DPG-Bench基准测试中，Janus-Pro-7B的准确率分别为80%和84.2%，显著高于DALL-E 3和其他对比模型。这表明Janus-Pro-7B在图像生成和多模态理解任务中具有更高的准确性和稳定性。

开源与应用

Janus-Pro-7B已经在Hugging Face平台上线，并采用MIT开源协议，这意味着用户可以免费下载和商用该模型。其开源性质为研究人员和开发者提供了极大的便利。

未来展望

DeepSeek计划继续优化Janus-Pro模型，并探索更多应用场景。Janus-Pro-7B的发布标志着多模态AI技术朝着轻量化和实用化方向迈出了重要一步。

然而，尽管Janus-Pro-7B在技术评测中取得了领先的成绩，但要将其成功转化为商业价值和社会效益，仍面临不少挑战。例如，如何确保模型在不同文化背景下的适用性？怎样提高模型对罕见或极端情况的应对能力？这些问题都需要DeepSeek及其合作伙伴们共同努力去解决。

发表于: 2025-02-262025-02-26 22:41:37
原文链接：https://page.om.qq.com/page/OL93Y899CYa3zpLpUd1sVoYg0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

Janus-Pro-7B，视觉模型领先Stable Diffusion和OpenAI的DALL-E 3

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐