我正试着把头挪开,但遇到了困难。
据我所知:
图像字幕是生成图像文本描述的过程。它使用自然语言处理和计算机视觉生成字幕。
来自这的论文:
它直接模拟了生成给定先前单词和图像的单词的概率分布。
因此,如果我正确理解,使用某种以图像和先前文本为输入的模型,它就会为下一个单词生成概率。
以“生成图像描述的深层视觉语义对齐”为例
但是,在VQA中是如何使用的呢?视觉问答是一个关于建立一个计算机系统来回答用图像和自然语言提出的问题的研究领域。)?
问题的答案是从图像产生的标题中得到的吗?
发布于 2019-06-02 07:35:20
通常,你融合图像特征(CNN)和问题特征(RNN),将它们传递到另一个网络,其输出与一个单词的答案相对应。见此处:https://arxiv.org/pdf/1505.00468v6.pdf
我可以想象,尝试一个解码器网络为答案生成句子,但这将是很难评估的。
https://stackoverflow.com/questions/56412965
相似问题