首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

全新的多模态预训练范式:微软提出GLIP统一了对象检测和短语定位任务

这有两个好处: GLIP可以同时从 detection 和 grounding 数据中训练学习,以改进两种任务,训练一个优秀的 grounding 模型; GLIP可以通过 self-training...主要贡献 「1、Unifying detection and grounding by reformulating object detection as phrase grounding」 改变了检测模型的输入...「Object detection as phrase grounding」 作者不是将每个 region/box 分类为c类,而是将检测任务重新定义为一个 grounding 任务,通过将每个 region...「Equivalence between detection and grounding」 通过上述方法,将任意detection  模型转化为grounding模型,且理论上训练和推理都是等价的。...c、Pre-training with Scalable Semantic-Rich Data GLIP模型可以在检测和更重要的grounding数据上进行训练,作者表明,grounding数据可以提供丰富的语义

2.3K20

AAAI-2024 | Mono3DVG:首个基于单目RGB图像实现3D Visual Grounding的方法

关注公众号,发现CV技术之美 本文分享论文Mono3DVG: 3D Visual Grounding in Monocular Images,该论文已被 AAAI 2024 接收,数据集和代码已开源。...然而,现有的2D Visual Grounding无法捕捉指代物体的真实3D范围。...3D Visual Grounding又需要激光雷达或RGB-D传感器,由于昂贵的成本和设备限制,极大地限制了其应用场景。单目3D目标检测成本低、适用性强,但无法定位特定目标。...本文提出一种新的任务,用具有外观和模糊的几何信息的语言描述在单目RGB图像中实现3D Visual Grounding。 数据集 为解决Mono3DVG任务,本文创建了Mono3DRefer数据集。...具体由多模态特征编码器、双文本引导适配器、Grounding解码器和Grounding头组成。

18510
您找到你想要的搜索结果了吗?
是的
没有找到

CV领域不断突破,原创成果连连!音频领域初探自带光环!OpenMMLab季报报告请收好

项目地址: https://github.com/open-mmlab/Amphion MM-Grounding-DINO: 轻松涨点, 数据到评测全面开源 Grounding DINO 是一个统一了...2d 开放词汇目标检测和 Phrase Grounding 的检测预训练模型,应用广泛,但是其训练部分并未开源,为此我们提出了 MM-Grounding-DINO。...其不仅作为 Grounding DINO 的开源复现版,MM-Grounding-DINO 基于重新构建的数据类型出发,在探索了不同数据集组合和初始化策略基础上实现了 Grounding DINO 的性能极大提升...,并且从多个维度包括 OOD、REC、Phrase Grounding、OVD 和 Finetune 等方面进行评测,充分挖掘 Grounding 预训练优缺点,希望能为后续工作提供启发。...Neptune,DVCLive 和 Aim 发布 mmengine-lite 包,精简第三方库依赖 MMDetection MMDetection 新版本带来了多项重要的算法更新: 全新开源 MM-Grounding

16410

探索Google的Gemini语言模型的API

Grounding 是另一种技术,它通过将特定于上下文的 data 纳入其处理中来增强 Gemini 提供相关且准确信息的能力。...Grounding 提供以下好处: 减少幻觉:Grounding 通过防止生成非事实内容来最大程度地减少模型幻觉的发生。...锚定响应:Grounding 确保模型响应牢固地锚定在特定信息上,从而增强其相关性和可靠性。 增强可信度和适用性:Grounding 内容更可信且更实用,从而提高用户满意度和对生成输出的信心。...Google 已将 Vertex AI Search 与 Gemini 集成,为 LLM 提供 Grounding 功能。...此外,Gemini 的 Grounding 和函数调用功能极大地扩展了其实用性,使其能够将外部数据源和服务无缝集成到其响应中。

8610

Diffusion+目标检测=可控图像生成!华人团队提出GLIGEN,完美控制对象的空间位置

GLIGEN 基于上述目的和想法,研究人员提出的GLIGEN模型仍然保留文本标题作为输入,但也启用了其他输入模态,如grounding概念的边界框、grounding参考图像和grounding部分的关键点...这里面的关键难题是在学习注入新的grounding信息的同时,还保留预训练模型中原有的大量概念知识。...训练数据 用于生成grounding图像的训练数据需要文本c和grounding实体e作为条件,在实践中可以通过考虑更灵活的输入来放松对数据的要求。...由于名词实体直接取自自然语言的标题,它们可以涵盖更丰富的词汇,有利于开放世界词汇的grounding生成。 2....提出了一种新的text2img生成方法,赋予了现有text2img扩散模型新的grounding可控性; 2.

58720

视觉CV-AIGC一周最新技术精选(2023-11)

PG-Video-LLaVA: Pixel Grounding Large Video-Language Models https://github.com/mbzuai-oryx/Video-LLaVA...最近将基于图像的LMM扩展到视频的方法要么缺乏grounding定位能力(例如,VideoChat,Video-ChatGPT,Video-LLaMA),要么不利用音频信号来更好地理解视频(例如,Video-ChatGPT...为解决这些问题,提出PG-Video-LLaVA,第一个具有像素级grounding能力的LMM,通过转录音频提示为文本来丰富视频上下文的理解。...框架用一个现成的跟踪器和一个新颖的grounding模块,使其能够根据用户的指令在视频中空间上和时间上定位对象。...使用基于视频的生成和问答基准测试评估了PG-Video-LLaVA,并引入了专门为测量基于提示的视频对象grounding性能而设计的新基准测试。

24710

ICCV2021 Oral-新任务!新数据集!康奈尔大学提出了类似VG但又不是VG的PVG任务

2108.07253 项目链接:https://whoswaldo.github.io/(尚未开源) 导言: 在本文中,作者提出了一个新的任务和基准数据集,Person-centric Visual Grounding...与之前的基于对象的Visual Grounding不同,本文的新任务mask了caption中人的名字,来鼓励模型关注上下文线索,如多个人之间丰富的交互,而不是学习名字和外观之间的联系。...在本文中,作者提出了一个以人为中心的视觉语言Grounding(PVG)任务和基准数据集。文本描述和图像区域之间连接的一般问题被称为Visual Grounding。...传统的Visual Grounding能够根据Object的表达来进行物体的定位,但是如果在PVG任务中也采用这种方式就会产生一定的问题:根据人名来定位会产生一定的偏置(比如性别等)。...除此之外,本文的数据都是在网络上获得,所以相比于传统的Visual Grounding数据,本文的数据更接近真实分布。

96930

Meta「分割一切」超进化版来了!IDEA领衔国内顶尖团队打造:检测、分割、生成一切,狂揽2k星

而现在,国内研究者基于这个模型想到了新的点子,将强大的零样本目标检测器Grounding DINO与之结合,便能通过文本输入,检测和分割一切。...借助Grounding DINO强大的零样本检测能力,Grounded SAM可以通过文本描述就可以找到图片中的任意物体,然后通过SAM强大的分割能力,细粒度的分割出mas。...这一项目结合了以下模型: · BLIP:强大的图像标注模型 · Grounding DINO:最先进的零样本检测器 · Segment-Anything:强大的零样本分割模型 · Stable-Diffusion...· 全自动标注系统: 首先使用BLIP模型为输入图像生成可靠的标注,然后让Grounding DINO检测标注中的实体,接着使用SAM在其框提示上进行实例分割。...个人主页:http://www.lsl.zone/ 顺便提一句,刘世隆也是今年3月份发布的目标检测模型Grounding DINO的一作。

57920

NeurIPS 2022 | 开放域检测新方法DetCLIP,推理效率提升20倍

现有 SOTA 开放域检测模型 GLIP[3]通过将检测数据的格式转化为 Grounding 数据的格式进行多数据源的联合训练,充分利用不同数据源的优势(检测数据集对常见类别有较为完全的标注,而 Grounding...多数据源并行输入预训练框架 相对于 GLIP 中将 detection 数据通过拼接类别名词的方式转化为 grounding 形式(串行),我们通过将 grounding 数据中的对应名词词组抽取出来和...由于 grounding 数据以及 image-caption 中数据存在 caption 标注不完全的问题(图片上出现的类别在 caption 中并没有出现),导致训练这些图片的时候可以作为负样本的类别数目极少...对于无框标注的 image-text pair 数据,我们通过华为诺亚自研大模型 FILIP[5]和预训练好的 RPN 对其进行标注,使其可以转化为正常的 grounding 数据进行训练。

75210

在视觉提示中加入「标记」,微软等让GPT-4V看的更准、分的更细

然而,尽管 GPT-4V 具有前所未有的视觉语言理解能力,但其细粒度 visual grounding(输入是图片和对应的物体描述,输出是描述物体的 box)能力相对较弱,或者尚未发挥出来。...短语关联(Phrase Grounding):与参考分割略有不同,短语关联使用由多个名词短语组成的完整句子。该研究要求 GPT-4V 为所有标记的短语分配相应的区域。...结果显示,GPT-4V+SoM 击败了 Grounding DINO、Polyformer 等专用模型以及 Shikra、LLaVA-1.5、MiniGPT-v2 和 Ferret 等最近的开源 LMM...接着是 Flickr30K 上的短语关联任务,研究者使用 Grounding DINO 为每个图像生成框建议。...GPT-4V+SoM 实现了比 GLIPv2 和 Grounding DINO 更强的零样本性能。 最后研究者在 DAVIS2017 数据集上评估了视频分割任务。

28220

在视觉提示中加入「标记」,微软等让GPT-4V看的更准、分的更细

然而,尽管 GPT-4V 具有前所未有的视觉语言理解能力,但其细粒度 visual grounding(输入是图片和对应的物体描述,输出是描述物体的 box)能力相对较弱,或者尚未发挥出来。...短语关联(Phrase Grounding):与参考分割略有不同,短语关联使用由多个名词短语组成的完整句子。该研究要求 GPT-4V 为所有标记的短语分配相应的区域。...结果显示,GPT-4V+SoM 击败了 Grounding DINO、Polyformer 等专用模型以及 Shikra、LLaVA-1.5、MiniGPT-v2 和 Ferret 等最近的开源 LMM...接着是 Flickr30K 上的短语关联任务,研究者使用 Grounding DINO 为每个图像生成框建议。...GPT-4V+SoM 实现了比 GLIPv2 和 Grounding DINO 更强的零样本性能。 最后研究者在 DAVIS2017 数据集上评估了视频分割任务。

29120

ECCV2020 | 即插即用,涨点明显!FPT:特征金字塔Transformer

在不失一般性的前提下,顶层/底层特征图没有rendering/grounding 转换器。...2)Grounding Transformer(GT)。它是以自上而下的方式,输出与下层特征图具有相同的比例。直观地说,将上层特征图的 "概念 "与下层特征图的 "像素 "接地。...基于MoS的归一化函数Fmos表达式如下: 自变换器可以表达为: 3、Grounding Transformer Grounding Transformer(GT)可以归类为自上而下的非局部non-local...所以我们更倾向于使用euclidean距离Fedu作为相似度函数,其表达方式为: 于是,Grounding Transformer可以表述为: 在特征金字塔中,高/低层次特征图包含大量全局/局部图像信息...Locality-constrained Grounding Transformer。因此,作者引入了局域性GT转换进行语义分割,这是一个明确的局域特征交互作用。

1.9K21
领券