本节围绕该基本框架,从视觉特征提取、视觉语义选择和模型设计与优化等方面,介绍当前流行的方法和模型架。
?...Gu 等人(2018) 采用融合两层堆叠注意力机制的LSTM 网络,对视觉信息进行过滤,实现由粗到细的图像描述。...这种方法从视觉概念检测、生成句子到句子排序几个步骤之间是离散的,没有使用端到端的优化技术,从而也可能使得整个模型陷入局部最优状态,性能受到限制。...Wu 等人(2016)为了使用更高层次的视觉语义信息,也提出一种基于视觉属性的图像描述框架,但并未使用 MIL 方法来生成视觉属性,而是直接从参考语句中按照出现次数对属性进行选择;同时通过一种多尺度组合分组的技术...而在图像描述中,不仅需要分析情感,还需要在如何选择合适的词汇、风格及与其他视觉对象的关系等方面进行研究,将情感与事实有机地融合在一起,形成更具吸引力的图像标题与描述。