Lu 等人(2017)从视觉语义概念与语言词汇的关联性出发,认为并不是每个时间步上都应关注于具体的视觉区域,对于部分虚词,难以确定其对应的视觉信息,因此,在注意力单元上设置了一个哨兵单元,自适应地学习需要重点关注的时间步...首先根据图像内容使用相似度与标题共识分值,从训练集中检索出相关的描述句子,然后使用文本引导注意力单元计算词汇与视觉区域的相关度,并据此提取图像的上下文特征。...Wu 等人(2016)为了使用更高层次的视觉语义信息,也提出一种基于视觉属性的图像描述框架,但并未使用 MIL 方法来生成视觉属性,而是直接从参考语句中按照出现次数对属性进行选择;同时通过一种多尺度组合分组的技术...在局部优化策略中,一般为图像对应参考句子设置虚标签,并将其与模型预测结果进行对比,使用交叉熵的方式计算两者误差,以此对语言模型中的参数进行迭代更新。...由创新工场、搜狗等公司联合举办的全球 AI 挑战赛(AI Challenger)中,专门设置了图像中文描述赛道。