首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >什么是图像标题以及它是如何在视觉问题回答中使用的?

什么是图像标题以及它是如何在视觉问题回答中使用的?
EN

Stack Overflow用户
提问于 2019-06-02 07:20:55
回答 1查看 287关注 0票数 0

我正试着把头挪开,但遇到了困难。

据我所知:

图像字幕是生成图像文本描述的过程。它使用自然语言处理和计算机视觉生成字幕。

来自的论文:

它直接模拟了生成给定先前单词和图像的单词的概率分布。

因此,如果我正确理解,使用某种以图像和先前文本为输入的模型,它就会为下一个单词生成概率。

以“生成图像描述的深层视觉语义对齐”为例

但是,在VQA中是如何使用的呢?视觉问答是一个关于建立一个计算机系统来回答用图像和自然语言提出的问题的研究领域。)?

问题的答案是从图像产生的标题中得到的吗?

EN

回答 1

Stack Overflow用户

发布于 2019-06-02 07:35:20

通常,你融合图像特征(CNN)和问题特征(RNN),将它们传递到另一个网络,其输出与一个单词的答案相对应。见此处:https://arxiv.org/pdf/1505.00468v6.pdf

我可以想象,尝试一个解码器网络为答案生成句子,但这将是很难评估的。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/56412965

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档