Playground v2 它在生成效果上比SDXL强2.5倍
Playground v2和SDXL的架构和模型参数都是相同的,都是采用两个text encoder:OpenCLIP-ViT/G和CLIP-ViT/L。你可以直接使用diffusers库来使用
Playground v2整合包下载 13.9G,模型已存放!!!!!
链接:https://pan.quark.cn/s/fa6b5ace9100
Playground v2 是一个基于扩散的文本到图像生成模型。该模型由 Playground 的研究团队从头开始训练。
根据 Playground 的用户研究,Playground v2 生成的图像比 Stable Diffusion XL 生成的图像受到青睐 2.5 倍。
安装 diffusers >= 0.24.0 和一些依赖项:
pip install transformers accelerate safetensors
若要使用该模型,请运行以下代码片段。
注意:建议使用 guidance_scale=3.0
。
from diffusers import DiffusionPipeline
import torch
pipe = DiffusionPipeline.from_pretrained(
"playgroundai/playground-v2-1024px-aesthetic",
torch_dtype=torch.float16,
use_safetensors=True,
add_watermarker=False,
variant="fp16"
)
pipe.to("cuda")
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt=prompt, guidance_scale=3.0).images[0]
为了将模型与 Automatic1111 或 ComfyUI 等软件一起使用,您可以使用 playground-v2.safetensors
文件。
我们引入了一个新的基准 MJHQ-30K,用于自动评估模型的美学质量。该基准在高质量数据集上计算 FID,以衡量美学质量。
我们从 Midjourney 中策划了一个高质量的数据集,其中包含 10 个常见类别,每个类别包含 3,000 个样本。按照惯例,我们使用美学评分和 CLIP 评分来确保高图像质量和高图像文本对齐。此外,我们格外注意使每个类别中的数据多样化。
对于 Playground v2,我们会同时报告总体 FID 和每个类别的 FID。所有 FID 指标均以 1024x1024 的分辨率计算。我们的基准测试结果表明,我们的模型在整体 FID 和所有类别的 FID 中都优于 SDXL-1-0-refiner,尤其是在人物和时尚类别中。这与用户研究的结果一致,该研究结果表明,在 MJHQ-30K 基准测试中,人类偏好与 FID 分数之间存在相关性。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。