首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

网页设计基础知识汇总——超链接

—— 设置边框的宽度,以像素点为单位的边框宽度,不设置宽度默认值为0

03

Dynamic Anchor Learning for Arbitrary-Oriented Object Detection

任意方向的目标广泛出现在自然场景、航拍照片、遥感图像等,任意方向的目标检测受到了广泛的关注。目前许多旋转检测器使用大量不同方向的锚点来实现与ground truth框的空间对齐。然后应用交叉-联合(IoU)方法对正面和负面的候选样本进行训练。但是我们观察到,选择的正锚点回归后并不能总是保证准确的检测,而一些阴性样本可以实现准确的定位。这说明通过IoU对锚的质量进行评估是不恰当的,进而导致分类置信度与定位精度不一致。本文提出了一种动态锚学习(DAL)方法,利用新定义的匹配度综合评价锚的定位潜力,进行更有效的标签分配过程。这样,检测器可以动态选择高质量的锚点,实现对目标的准确检测,缓解分类与回归的分歧。在新引入的DAL中,我们只需要少量的水平锚点就可以实现对任意方向目标的优越检测性能。在三个遥感数据集HRSC2016、DOTA、UCAS-AOD以及一个场景文本数据集ICDAR 2015上的实验结果表明,与基线模型相比,我们的方法取得了实质性的改进。此外,我们的方法对于使用水平边界盒的目标检测也是通用的。

01

Multi-source Domain Adaptation for Semantic Segmentation

用于语义分割的实域自适应仿真已被积极研究用于自动驾驶等各种应用。现有的方法主要集中在单个源设置上,无法轻松处理具有不同分布的多个源的更实际的场景。在本文中,我们建议研究用于语义分割的多源域自适应。具体来说,我们设计了一个新的框架,称为多源对抗域聚合网络(MADAN),它可以以端到端的方式进行训练。首先,我们为每个源生成一个具有动态语义一致性的自适应域,同时在像素级循环上一致地对准目标。其次,我们提出了子域聚合鉴别器和跨域循环鉴别器,以使不同的适应域更紧密地聚合。最后,在训练分割网络的同时,在聚合域和目标域之间进行特征级对齐。从合成的GTA和SYNTHIA到真实的城市景观和BDDS数据集的大量实验表明,所提出的MADAN模型优于最先进的方法。

01

多模态如何自监督?爱丁堡等最新「自监督多模态学习」综述:目标函数、数据对齐和模型架构

---- 新智元报道   来源:专知 【新智元导读】在这份综述中,作者对SSML的最新进展进行了全面回顾,并沿着三个正交轴进行分类:目标函数、数据对齐和模型架构。 多模态学习旨在理解和分析来自多种模态的信息,近年来在监督机制方面取得了实质性进展。 然而,对数据的严重依赖加上昂贵的人工标注阻碍了模型的扩展。与此同时,考虑到现实世界中大规模的未标注数据的可用性,自监督学习已经成为缓解标注瓶颈的一种有吸引力的策略。 基于这两个方向,自监督多模态学习(SSML)提供了从原始多模态数据中利用监督的方法。 论文

02

行人搜索也可以Anchor-Free?这篇CVPR 2021论文给出了答案

近年来,行人重识别(Person Re-Identification,简称ReID)在计算机视觉领域可谓火遍了“大江南北”。脱胎于行人重识别,行人搜索(Person Search)问题在2017年的CVPR会议上被首次提出。与ReID的单一识别任务不同,行人搜索结合了行人检测和ReID两个任务,因此也更贴近实际应用场景。本文主要介绍阿联酋起源人工智能研究院(IIAI)与牛津大学的科学家们刚刚被CVPR 2021接收的一篇论文:《Anchor-Free Person Search》。该工作开创性地提出了一个简洁有效的无需锚框(Anchor-Free)的行人搜索框架,其搜索精度全面超越以往基于二阶段检测器的框架,并且在保证性能的前提下达到了更快的运行速度。

04

Domain Adaptation for Structured Output viaDiscriminative Patch Representations

预测语义分割等结构化输出依赖于昂贵的每像素注释来学习卷积神经网络等监督模型。然而,在没有模型调整注释的情况下,在一个数据域上训练的模型可能无法很好地推广到其他域。为了避免注释的劳动密集型过程,我们开发了一种域自适应方法,将源数据自适应到未标记的目标域。我们建议通过构建聚类空间来发现逐片输出分布的多种模式,从而学习源域中补丁的判别特征表示。以这种表示为指导,我们使用对抗性学习方案来推动聚类空间中目标补丁的特征表示更接近源补丁的分布。此外,我们还表明,我们的框架是对现有领域自适应技术的补充,并在语义分割方面实现了一致的改进。广泛的消融和结果在各种设置的众多基准数据集上进行了演示,例如合成到真实和跨城市场景。

04

达观纪传俊:多模态文档LayoutLM版面智能理解技术演进

办公文档是各行各业最基础也是最重要的信息载体,不管是金融、政务、制造业、零售行业等等,各种类型的文档都是业务流转过程中必不可少的数字资料。以银行信贷为例,一笔信贷业务在贷前贷中到贷后全流程中,需要涉及财报、银行流水、贸易合同、发票、尽职调查报告、审批意见书、会议纪要等等材料,材料的格式和内容均差异很大,但都是针对同一笔信贷业务、从不同角色视角、不同业务角度的情况描述。每一种材料都承载了重要的业务数据,对这些材料进行全面而准确的价值提取,并汇集所有材料实现全流程数据穿透,是前述信贷业务目前急需解决的问题。如何提取海量历史文档中的关键要素和数据,构建数据资产,也是当前各个行业做数字化智能化转型的重要课题。

02
领券