此 外, Kuznetsova 等 人(2014)提出了另一种基于随机树合成的图像描述生成方法,首先检测出待描述图像中的语义片段,然后从检索库中寻找携带类似语义的图像及其描述,并将其视觉片段和对应描述单独抽取出来...Xu 等人(2015)首先将注意力机制应用在图像描述任务上,将经过 CNN 变换后的最后一层特征图(非特征向量)的不同位置作为注意力关注对象,将多幅特征图的相同位置组合在一起作为该位置的特征片段,在不同的时间步上...他们使用目标检测技术得到图像中的各语义对象,并结合其属性、关系等特征,生成图像的场景图( scene graph),然后利用 GCN 提取其特征,结合在大规模文本库上预训练的字典,为图像生成描述语义信息更为丰富的语句...Mathews 等人(2016)从情感表达的个性化特点出发,通过设计一种开关式 RNN 单元,为图像生成具有“积极(positive)”或“消极(negative)”情感的描述句子。...并根据场景图的匹配程度,衡量生成句子的质量;在具体计算时,参考句子集合与生成句子的场景图转换为“ n-元组”的集合,然后借鉴 METEOR 方法中的匹配方法统计匹配集合,并计算生成句子中视觉语义对象的准确率与召回率