训练用的文本图像对中,文本字幕通常来源于人类标注,其主要关注主体对象,而忽略了背景细节或者图像中颜色等感知关系,而这些缺点都可以通过合成生成字幕解决。被忽略的细节如下:
i:image
t:token
Step 1 将输入的文本字符化,将离散的字符用序列表征,t = [t1, t2, . . . , tn]
Step 2 构建一个语言模型 Model A ,最大化似然函数 L(t)
image-20231025103038018
Step 3 在Model A 基础上构建 图像字幕生成器 Model B,考虑到图像像素空间太大,需要通过CLIP压缩图像表征空间F(i)
,最大化似然函数L(t,i)
image-20231025115017663
Step 4 将Model A和Model B 联和训练
Stage 1 SSC
Stage 2 DSC
image-20231025115317387
image-20231025120329276
image-20231025120433835
在对象定位和空间感知方面存在困难。例如,使用词语 "在左边"、"在下面"、"在后面" 等是相当不可靠的。这是因为我们的合成字幕生成器也有这个弱点:它在陈述对象位置方面不可靠,这反映在我们的下游模型中。
在构建我们的字幕生成器时,我们特别注意确保它能够在生成的字幕中包含在图像中找到的显著单词。因此,DALL-E3 可以在提供提示时生成文本。在测试过程中,我们注意到这种功能不够可靠,因为单词可能丢失或多余字符。我们怀疑这可能与我们使用的 T5 文本编码器有关:当模型遇到提示中的文本时,实际上它会看到代表整个单词的标记,并必须将这些标记映射到图像中的字母。
我们观察到我们的合成标题容易产生关于图像的重要细节的幻觉。例如,给定一幅花的植物图,字幕生成器通常会幻想一个植物的属和种,并将其放入标题中,即使这些细节在图像中以文本形式可用。当描述鸟类图片时,我们观察到类似的行为:物种可能被幻想,或者根本不提到。这对我们的文本到图像模型产生了下游影响:DALL-E3 在为上述特定术语生成图像方面不可靠
本文分享自 iResearch666 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!