掀起一股中国风，最强中文AI作画大模型文心ERNIE-ViLG 2.0来了

用户1386409

发布于 2022-11-29 10:38:05

7360

发布于 2022-11-29 10:38:05

AI作画在全世界越来越盛行。近日，百度发布知识增强跨模态大模型——文心ERNIE-ViLG 2.0，在AI作画领域取得新突破。该模型采用基于知识增强算法的混合降噪专家建模，是全球首个知识增强的AI作画大模型，也是目前全球参数规模最大的AI作画大模型。

文心ERNIE-ViLG 2.0在文本生成图像公开权威评测集MS-COCO和人工盲评上均超越了Stable Diffusion、DALL-E 2等模型，取得了当前该领域的世界最好效果，在语义可控性、图像清晰度、中国文化理解等方面均展现出了显著优势。

论文链接： https://arxiv.org/pdf/2210.15257.pdf
体验链接： https://wenxin.baidu.com/ernie-vilg

文心ERNIE-ViLG 2.0

最强中文AI作画大模型

AIGC(AI-Generated Content)是继UGC、PGC之后，利用AI技术自动生成内容的新型生产方式。AI作画作为AIGC重要方向之一，蕴含了极大的产业应用价值。相比于人类创作者，AI作画展现出了创作成本低、速度快且易于批量化生产的巨大优势。

近一年来，该领域迅猛发展，国际科技巨头和初创企业争相涌入，国内也出现了众多AI作画产品，这些产品背后主要使用基于扩散生成算法的DALL-E 2和Stable Diffusion等国外模型。目前，这类基础模型在国内尚处空白，文心ERNIE-ViLG 2.0是国内首个在该方向取得突破的工作。

当前AI作画技术在图像细节纹理的流畅度、清晰度、语义的可控性等方面还存在诸多问题。基于此，百度提出了基于知识增强的混合降噪专家（Mixture-of-Denoising-Experts，MoDE）建模的跨模态大模型文心ERNIE-ViLG 2.0，在训练过程中，通过引入视觉知识和语言知识，提升模型跨模态语义理解能力与可控生成能力；在扩散降噪过程中，通过混合专家网络建模，增强模型建模能力，提升图像的生成质量。

我们先来欣赏下文心ERNIE-ViLG 2.0根据文本描述生成图像的一些示例：

文心ERNIE-ViLG 2.0 创作的图像示例：

令人震撼的科幻插图杰作，神秘宇宙星辰背景中出现一只巨大的星球, 大场景，无比详细，明暗对比，32k

文心ERNIE-ViLG 2.0创作的图像示例：

凤凰周身火焰，多彩的祥云，明月，cg感

文心ERNIE-ViLG 2.0创作的图像示例：

用沙尘暴制作的令人敬畏的龙，概念艺术，二次元

文心ERNIE-ViLG 2.0创作的图像示例：

srudio ghibli风格，一个巨大的圆月、超现实的超自然村庄，抽象的生物形态建筑、白色，金色

文心ERNIE-ViLG 2.0可应用于工业设计、动漫设计、游戏制作、摄影艺术等场景，激发设计者创作灵感，提升内容生产的效率。通过简单的描述，模型便可以在短短几十秒内生成设计图，极大地提升了设计效率、降低商业出图的门槛。

文心ERNIE-ViLG 2.0助力视觉内容AI大生产

文心ERNIE-ViLG 2.0技术揭秘

文心ERNIE-ViLG 2.0通过视觉、语言等多源知识指引扩散模型学习，强化文图生成扩散模型对于语义的精确理解，以提升生成图像的可控性和语义一致性。同时，文心ERNIE-ViLG 2.0首次引入基于时间步的混合降噪专家模型来提升模型建模能力，让模型在不同的生成阶段选择不同的「降噪专家」网络，从而实现更加细致的降噪任务建模，进而提升生成图像的质量。

文心ERNIE-ViLG 2.0架构图

基于语言和图像知识的知识增强算法

为提升生成图像的语义一致性和可控性，百度研究者提出将知识增强算法融入扩散模型学习，在扩散模型学习过程中，引入语言、视觉等多源知识指引模型更加关注文本和图像中的核心语义元素，同时针对训练数据噪声带来的训练图文样本语义偏差问题提出了文本语义补全的方法，对图文的语义一致性进行针对性学习，进而实现精准的细粒度语义控制。

混合降噪专家网络

针对模型建模能力不足，导致图像质量不够好的问题，百度研究者发现，扩散模型的降噪过程中不同阶段对降噪网络的能力要求不同，初始阶段模型需要从纯随机噪声中生成图像轮廓，结尾阶段对模型的要求变为对图像细节补全，传统方法使用同一网络建模整个降噪过程，模型需要同时满足不同阶段的建模需求。

为此，百度研究者提出了针对不同阶段选择不同网络（降噪专家）进行建模的框架，有效地解决了不同阶段对模型能力要求不一致的问题，减少降噪任务的互相干扰，提升图像生成的质量。由于每个生成阶段只选取一个专家进行生成，实现了在不增加模型预测计算量的情况下对模型建模能力的扩充。

文心ERNIE-ViLG 2.0

刷新MS-COCO评测集合最好效果

百度研究者在业内公开文本生成图像权威集合MS-COCO上评测了模型效果。相较于业内的其他工作，如DALL-E 2、Imagen、Parti等模型，文心ERNIE-ViLG 2.0取得了当前最好效果，刷新了该任务的基准。（FID指标代表了模型生成图像的逼真程度，数值越低代表模型越好）

文心ERNIE-ViLG 2.0在 MS-COCO上的效果

除了客观自动评估指标，百度研究者还采用了人工评估方式，从图像保真度和图文相关性两个维度比较了文心ERNIE-ViLG 2.0与DALL-E 2以及Stable Diffusion的效果。评测人员采用多人盲评的方式，根据评价维度选择表现更好的一方。在图文相关性和图像保真度两个维度上，文心ERNIE-ViLG 2.0相对于DALL-E 2和Stable Diffusion都有较大优势。

文心ERNIE-ViLG 2.0人工评估结果

百度研究者还针对文心ERNIE-ViLG 2.0中的知识增强算法和混合降噪专家网络做了进一步效果分析。

其中，基于知识增强算法，文心ERNIE-ViLG 2.0展现出对语义更精准的理解，生成结果更加可控，如以下示例中对颜色等物体属性实现精准控制。

文心ERNIE-ViLG 2.0与DALL-E 2

在属性控制方面对比示例

基于混合降噪专家网络，文心ERNIE-ViLG 2.0在清晰度和纹理质量方面都取得了显著的提升，对比业界其他模型生成了更加逼真的图像。

文心ERNIE-ViLG 2.0清晰度对比示例

文心ERNIE-ViLG 2.0

更懂中国文化、图像创作能力更强

百度研究者构建了近2亿高质量中文图文数据对，通过基于知识增强的混合降噪专家建模，文心ERNIE-ViLG 2.0具备了强大的中文语义理解能力。下面是文心ERNIE-ViLG 2.0结合了多种不同的风格重新绘制了中国文化相关的元素。

左右滑动查看更多

文心ERNIE-ViLG 2.0在中国元素相关概念上创作的图像

（仙鹤、京剧、青花瓷、建筑、剪纸、凤凰等中国元素）

在动漫创作方面，文心ERNIE-ViLG 2.0也有显著的优势，与当下的AI绘画模型相比，展现出更加惊艳的效果，能够创作精美的动漫人物。

文心ERNIE-ViLG 2.0创作动漫图像

生成创意图像是AI作画的重要应用之一，它能够帮助用户激发想象力、带来创作灵感。文心ERNIE-ViLG 2.0能够根据文字描述，精准地生成现实世界没有的具有创造性的图像。

左右滑动查看更多

文心ERNIE-ViLG 2.0生成的创意图像

文心ERNIE-ViLG 2.0开放服务

值得注意的是，早在今年8月，文心ERNIE-ViLG 2.0模型通过API服务方式开放公测，一经上线，便受到了国内外广大开发者和爱好者广泛关注。其中，讨论度最高的是文心ERNIE-ViLG 2.0在中国元素和二次元相关的创作中，效果远超其他AI作画模型。有网友评价: "最先进的AI动画生成技术在中国"。

除此之外，文心ERNIE-ViLG 2.0展现出来的图像质量、美感度也获得了国外网友比较高的评价。

开发者和科技爱好者可以通过文心ERNIE-ViLG 2.0的API调用入口直接体验该模型的技术效果，并灵活方便地集成到产品中。同时，基于文心ERNIE-ViLG 2.0大模型，百度也推出了AI作画产品——AI艺术与创意辅助平台：文心一格（yige.baidu.com），以满足更广泛人群在AI作画方面的需求。

本文参与腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2022-10-31，如有侵权请联系 cloudcommunity@tencent.com 删除

编程算法

本文分享自 PaddlePaddle 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体分享计划，欢迎热爱写作的你一起参与！

编程算法

登录后参与评论

0 条评论

热度

掀起一股中国风，最强中文AI作画大模型文心ERNIE-ViLG 2.0来了

掀起一股中国风，最强中文AI作画大模型文心ERNIE-ViLG 2.0来了

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐