1、图像简单标题生成与描述
对图像中的视觉内容进行归纳和总结,并使用合适的词汇与合理的语法结构将其重新组织并表达出来,是图像标题生成与描述的主要研究内容。...Wang 等人(2018a) 将强化学习与对抗学习的思想引入图像流的描述任务中,使用层次化RNN 作为句子生成器,并设计多模判别器与语言风格判别器计算奖励,整个模型通过对抗训练的方式进行优化。...此外,对于 Flickr8K 数据集,其样本量更少,共包含 8 091 幅图像。 同样地,每幅图像对应 5 条参考句子。...VG数据集为每幅图像圈定了更为密集的视觉语义对象,并对其进行描述。 部分研究人员认为,对图像进行过多的圈定并对其进行标注可能是没有必要的。...在原数据集中,共包含了约10 000 幅图像,每幅图像对应 5 条事实描述句子,1 条幽默风格的句子,1 条浪漫风格的句子。