Mason和 Charniak(2014)则根据待描述图像中视觉内容所对应的标签词频,将描述生成问题转化为文本摘要提取问题,使用更成熟的自然语言处理技术实现生成质量更高的标题或描述的目标。...首先根据图像内容使用相似度与标题共识分值,从训练集中检索出相关的描述句子,然后使用文本引导注意力单元计算词汇与视觉区域的相关度,并据此提取图像的上下文特征。...他们使用目标检测技术得到图像中的各语义对象,并结合其属性、关系等特征,生成图像的场景图( scene graph),然后利用 GCN 提取其特征,结合在大规模文本库上预训练的字典,为图像生成描述语义信息更为丰富的语句...以元学习(Meta-learning)思想为基础,将图像和文本结合在一起作为学习目标,通过动态地学习文本中的少量先验知识,进而影响视觉模型中的参数更新,并实现视觉模型与语言模型的参数共享。...Park 等人(2017)为了生成更为个性化的图像描述,提出一种上下文序列记忆网络,当给定一幅图像后,用户输入个性化信息,使用不同的 CNN 网络分别对图像特征与文本特征进行编码,并在每个时间步上结合注意力机制对记忆单元进行更新