这种方法首先依赖于特征的表达能力,用以支撑将图像解析成准确的视觉语义概念;其次,需要构建较为完善的 Web 语义库,使得能够查询到置信度较高的语义本体,并组合成新的描述语句。...首先根据图像内容使用相似度与标题共识分值,从训练集中检索出相关的描述句子,然后使用文本引导注意力单元计算词汇与视觉区域的相关度,并据此提取图像的上下文特征。...Gu 等人(2018) 采用融合两层堆叠注意力机制的LSTM 网络,对视觉信息进行过滤,实现由粗到细的图像描述。...这种方法从视觉概念检测、生成句子到句子排序几个步骤之间是离散的,没有使用端到端的优化技术,从而也可能使得整个模型陷入局部最优状态,性能受到限制。...noun pair,ANP)”,将其嵌入到描述句子中,为每幅图像形成“正面(positive)”和“负面( negative)”的图像描述。