开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

通义千问首个图像生成基础模型Qwen-Image开源

文章来源：企鹅号 - 三言科技

今日，通义千问宣布开源Qwen-Image，一个20B的MMDiT模型，是通义千问系列中首个图像生成基础模型，其在复杂文本渲染和精确图像编辑方面取得了显著进展。

官方介绍，Qwen-Image的主要特性包括：

卓越的文本渲染能力: Qwen-Image 在复杂文本渲染方面表现出色，支持多行布局、段落级文本生成以及细粒度细节呈现。无论是英语还是中文，均能实现高保真输出。

一致性的图像编辑能力: 通过增强的多任务训练范式，Qwen-Image 在编辑过程中能出色地保持编辑的一致性。

强大的跨基准性能表现: 在多个公开基准测试中的评估表明，Qwen-Image 在各类生成与编辑任务中均获得SOTA，是一个强大的图像生成基础模型。

发表于: 2025-08-052025-08-05 07:15:06
原文链接：https://page.om.qq.com/page/O67dYijYXUU1DfMmhLhT_oaA0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

相关快讯