首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >基于文本的图像检索与自然语言对象检索的区别

基于文本的图像检索与自然语言对象检索的区别
EN

Data Science用户
提问于 2020-10-10 00:43:57
回答 1查看 129关注 0票数 2

我正在创建一个模型,使用自然语言查询来定位场景中的对象(2D图像或3D场景)。我在自然语言对象检索上看到的这篇论文提到,这个任务不同于基于文本的图像检索,因为自然语言对象检索需要理解图像中的对象、空间配置等。我无法看到这两个任务之间的区别。你能举个例子解释一下吗?

EN

回答 1

Data Science用户

发布于 2020-10-10 19:17:54

免责声明:我只能回答NLP部分,因为我不是图像处理专家。

我假设基于文本的图像检索是查找图像(或图像的一部分)的任务,该图像对应于专门描述对象的简短文本。实际上,它意味着文本中的任何内容词(即不包括语法词,如限定词)都直接指对象:“自行车”、“黑猫”、“红色汽车”等。对于ML过程来说,意味着文本中没有什么可分析的,每个单词都可以直接与图像的特征相关联。

相比之下,自然语言对象检索涉及文本分析。例如,“图片左边的猫”与“猫左边的图片”不同,尽管单词是相同的。此外,可以有不同的方式来引用同一个对象:“书架左边的书”可能与“最左边的书”或“绿皮书旁边的书”相同。通常有很多方法可以用语言来表达同样的意思,这使得任务变得更加复杂。此外,我还假设将位置描述映射到图像特征可能很棘手:“树后面的人”或2D图像中的“第二桥”需要模型“理解”深度。在一张有两只狗的照片中,“小狗”需要模型“理解”物体之间的大小关系。人类直觉地知道如何解释这些句子,但是对于一台机器来说,自然语言理解还没有被解决(可能永远不会)。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/82803

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档