首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

计算机视觉最新进展概览(2021年5月30日到2021年6月5日)

现有的旋转目标检测器大多继承自水平检测范式,因为后者已经发展成为一个成熟的领域。 然而,由于当前回归损失设计的局限性,尤其是对于大纵横比的目标,这些检测器难以在高精度检测中突出表现。 本文从水平检测是旋转物体检测的一种特殊情况出发,从旋转与水平检测的关系出发,将旋转回归损失的设计从归纳范式转变为演绎方法。 在动态联合优化过程中,估计的参数会以自适应和协同的方式相互影响,因此如何调节旋转回归损失中的耦合参数是一个关键的挑战。 具体来说,我们首先将旋转的包围框转换为二维高斯分布,然后计算高斯分布之间的Kullback-Leibler Divergence (KLD)作为回归损失。 通过对各参数梯度的分析,我们发现KLD(及其导数)可以根据对象的特性动态调整参数梯度。 它将根据长宽比调整角度参数的重要性(梯度权重)。 这种机制对于高精度检测是至关重要的,因为对于大纵横比物体,轻微的角度误差会导致严重的精度下降。 更重要的是,我们证明了KLD是尺度不变的。 我们进一步证明了KLD损失可以退化为流行的 损失用于水平检测。

03

CVPR 2022 | 关注文本阅读顺序,蚂蚁集团、上海交通大学提出多模态文档理解模型XYLayoutLM

机器之心专栏 作者:蚂蚁集团-大安全-机器智能 来自蚂蚁集团 - 大安全 - 机器智能和上海交通大学的研究者提出了一种多模态文档理解新模型 XYLayoutLM。 近年来,多模态文档理解在各类场景得到了广泛的应用。它要求我们结合图像,文本和布局信息对扫描件或者 pdf 文件进行理解。在常见的表单理解的任务中,多模态数据如图 1 所示。 图 1:多模态文档理解数据示例(来自 XFUN 数据集) 除此之外,多模态的模型还被应用于文档自动处理,文本关系提取和网页分类定性等等一系列应用。然而,需要强调的是,这个问

03

SEED:在大语言模型中播下一颗视觉的"种子"

近年来,在海量文本语料库上进行预训练的大语言模型已趋于成熟,表现出在理解、推理和生成各种开放式文本任务上的卓越能力。最近的研究聚焦于进一步利用大语言模型的强大通用性来提升视觉理解和视觉生成任务的效果,统称为多模态大语言模型。先前的工作通过将预先训练的图像编码器(例如CLIP-ViT)的视觉特征与大语言模型的输入嵌入空间对齐来执行开放式视觉QA。GILL通过将其输出嵌入空间与预训练的稳定扩散模型对齐,从而赋予大语言模型图像生成能力。虽然这些研究促进了技术进步,但在新兴能力方面,多模态大语言模型尚未取得像大预言模型那样的显著成功。

07
领券