首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

参数减半、与CLIP一样好,视觉Transformer从像素入手实现图像文本统一

机器之心编译 编辑:袁铭怿 CLIPPO 是一种统一的模型,用单个编码器和对比损失来执行图像、文本和多模态任务,优于传统的 NLP 基线和之前基于像素的掩码语言模型。 近年来,基于 Transformer 的大规模多模态训练促成了不同领域最新技术的改进,包括视觉、语言和音频。特别是在计算机视觉和图像语言理解方面,单个预训练大模型可以优于特定任务的专家模型。 然而,大型多模态模型通常使用模态或特定于数据集的编码器和解码器,并相应地导致涉及的协议。例如,此类模型通常涉及在各自的数据集上对模型的不同部分进行不同阶

02

文字生成图片综述 - plus studio

根据文字生成图像,是近几年大模型领域和多模态比较热门的研究。以NovelAI,waifu等为代表的二次元模型极大地拓展了 stable diffusion [5][24]模型和生态的想象空间。例如原本做AIGC生成小说的NovelAI推出了自己的二次元图像生成模型,基于 SD 算法框架和 Danbooru 二次元图库数据集进行训练和优化。像 NovelAI 这类的二次元模型对于用户输入的描述词的专业程度要求较高,也由社区自发整理了大量的魔典(prompt).精确控制图像的生成也是AI绘画的一个发展方向,各种可以控制人物动作,位置的方法[10][13][19]被提出.最近openai也开源了他们最新的研究Consistency Models[20] ,可以1s内生成多张图片。此外,stable diffusion也被用在了3d模型的生成方面,例如 dreamfusion[25],Point-E[26] 等。

01
领券