如图 1 所示,首先对图像中的视觉内容进行解析,将其转换成视觉语义编码,然后根据编码内容进行解码,将其映射到语言空间中,生成相关词汇,并组合成用词准确、结构合理的自然语言。...Farhadi 等人(2010)首先提出了“视觉—语言”共享语义空间的方法,通过检测图像中的视觉对象,并将其映射到预先设计的语义空间元组上,建立该图像与元组所关联的描述句子之间的对应关系;通过这种关系,...为解决这一问题,受机器翻译中“注意力机制”与视觉显著性的启发,将注意力机制与视觉概念/ 属性引入到图像标题生成与描述任务中,在不同的时间步上,赋予不同的视觉区域(特征)以不同的权值,或者结合不同的视觉概念...3 、图像情感与个性化
除了为图像生成更为详细的精细化描述外,人们也注意到在日常交流中其语言常蕴含多种个性化和情感信息。 在描述一幅图像时,常常根据个人经验和观感在句子中掺杂多种情感信息。...noun pair,ANP)”,将其嵌入到描述句子中,为每幅图像形成“正面(positive)”和“负面( negative)”的图像描述。