首页
学习
活动
专区
工具
TVP
发布

集智书童

专栏作者
287
文章
306561
阅读量
36
订阅数
杜克大学提出 OSR-ViT | 性能水平远超现有的监督学习方法,仅使用少量训练数据就能超越监督 Baseline !
传统的目标检测模型是在闭合集条件下设计、训练和评估的,在这个条件下,假定所有感兴趣的可能类别在训练数据集中都被详尽地标记了。如果这样的模型在开放集环境中部署,其中存在来自训练类别分布之外的未知物体,模型可能会将物体错误分类为已知类别,或者完全检测不到物体——这会导致严重的安全、公平性和可靠性问题。这促使了对开放集目标检测[23]的需求,其中除了已知的“分布内”(ID)物体之外,还明确处理未知的“分布外”(OOD)物体。
集智书童公众号
2024-04-25
70
速度提升5.8倍数 | 如果你还在研究MAE或许DailyMAE是你更好的选择,更快更强更节能!!!
自监督学习(SSL)在机器学习中代表了转变性的飞跃,通过利用未标记数据来进行有效的模型训练[3, 4, 20, 22, 31, 32, 33, 34]。这种学习范式得益于大规模数据集,以学习丰富表示用于小样本学习[8]和迁移学习[13, 23]。互联网上大量的未标记数据激发了对深度神经网络模型在大数据集上训练的需求。目前,SSL的成功通常需要在高性能计算集群(HPC)[8, 11, 17]上训练数周。例如,iBOT [47]在16个V100上训练了193小时,用于ViT-S/16。这些计算不包括在开发SSL框架时测试不同假设所需要的时间,这些假设需要在ImageNet-1K[36]的适当规模上进行测试,ImageNet-1K拥有120万个样本,并且需要相当数量的迭代。因此,高效的预训练配方被高度期望以加速SSL算法的研究,例如,超参数调整和新算法的快速验证。为了减少训练时间,一些研究人员在ImageNet-1K[36]的子集上训练他们的模型,例如10%的样本[3]。然而,当模型扩展到大型数据集时,可能会存在性能差距,即在小数据集上表现成熟的模型可能无法处理复杂问题上的多样性。
集智书童公众号
2024-04-25
30
​FlattenQuant | 推动低比特量化技术突破,大幅提升大型语言模型的计算效率和部署性能!
大型语言模型(LLM)的卓越能力近年来产生了重大影响(OpenAI, 2023; Ge等人,2023; Zhao等人,2023)。各种LLM已经被发布并在现实世界的生产环境中得到应用(Eloundou等人,2023)。因此,对于LLM的部署有着广泛的需求。
集智书童公众号
2024-04-25
80
你的模型是不是换个场景就不行了?CAT 的完美设计解决类内偏差,场景自适应的目标检测就这么诞生了
Foggy Cityscapes数据集上,作者获得了52.5 mAP,相比于最先进方法的51.2 mAP,这是一个显著的提升。
集智书童公众号
2024-04-25
70
​三星新出检测神器 | 通过聊天+看图的形式轻松完成目标检测,性能 SOTA
RAL构成两个损失,反映与负词汇的语义相似性。此外,RAF使用大型语言模型(LLM)中的文字化概念增强视觉特征。 作者的实验证明了RALF在COCO和LVIS基准数据集上的有效性。作者在COCO数据集的新颖类别上取得了高达3.4 box
集智书童公众号
2024-04-25
60
全新 SOTA backbone | 2024年了,再见ViT系列Backbone,实数难得,不知道效果如何?
指纹是一种不可变且独特的生物特征,广泛应用于各种场景中的人体认证,包括法医、银行识别和物理访问控制。
集智书童公众号
2024-04-19
980
上海AI Lab提出Dual-DETR | 合理设计解码器,如果一个解码分支解决不了需求,那就再加一个总够了吧!
时间动作检测(TAD)是视频理解中的基本任务之一,在视频编辑,体育分析,监控录像分析以及自动驾驶[1]等领域有着广泛的真实应用。TAD旨在识别人类动作的起始和结束时间,并同时识别相应的动作类别。为了应对TAD在复杂真实应用场景中的挑战,我们专注于复杂的多标签时间动作检测(Multi-label TAD),在这种情况下,未修剪的视频中存在来自不同类别的多样化动作,通常具有显著的时空重叠。
集智书童公众号
2024-04-18
1550
自动化数据引擎 AIDE | 自动识别问题、自动标注改进模型,不在依赖大量人工数据标注!
自动驾驶车辆(AVs)在一个不断变化的世界中运行,遭遇着在长尾分布中的各种物体和情景。这种开放世界的特性对AV系统提出了重大挑战,因为这是一个对安全至关重要的应用,必须部署可靠且训练有素的模型。随着环境的发展,对持续模型改进的需求变得明显,要求具备应对突发事件的可适应性。
集智书童公众号
2024-04-18
1180
YOLC 来袭 | 遥遥领先 !YOLO与CenterNet思想火花碰撞,让小目标的检测性能原地起飞,落地价值极大 !
为了解决这些问题,作者提出了YOLC(You Only Look Clusters),这是一个高效且有效的框架,建立在 Anchor-Free 点目标检测器CenterNet之上。为了克服大规模图像和不均匀物体分布带来的挑战,作者引入了一个局部尺度模块(LSM),该模块自适应搜索聚类区域进行放大以实现精确检测。 此外,作者使用高斯Wasserstein距离(GWD)修改回归损失,以获得高质量的边界框。在检测Head中采用了可变形卷积和细化方法,以增强小物体的检测。作者在两个空中图像数据集上进行了大量实验,包括Visdrone2019和UAVDT,以证明YOLC的有效性和优越性。
集智书童公众号
2024-04-15
4780
​关注难易样本分布 Focaler-IoU | 提升边界框回归在目标检测中的应用性能 !
目标检测是计算机视觉的基本任务之一,其目的是在图像中定位并识别物体。根据是否生成 Anchor 点,目标检测方法可以分为Anchor-based和 Anchor-Free两大类。Anchor-based算法包括FasterR-CNN,YOLO系列,SSD和 RetinaNet。Anchor-Free的检测算法包括CornerNet,CenterNet 和 FCOS。在这些检测器中,边界框回归损失函数作为定位分支的重要组成部分,起着不可替代的作用。
集智书童公众号
2024-04-14
1170
​终于看到一个不在 Backbone上研究 ResNet的了!直接优化小目标检测性能,不卷ImageNet-1K数据集!
检测输电和配电塔对于电力网的安全可靠运行至关重要,因为这些塔的位置和数量是设计电力网络拓扑和规划其扩展的关键参数。将遥感(RS)和深度学习技术相结合作为一种广泛采用的目标检测方法具有多种优势,包括能够快速覆盖大面积、减少人为错误以及提高检测精度。卷积神经网络(CNNs)已成为深度学习中的主要方法,因为它们可以从原始图像像素自动学习判别特征,捕捉图像区域之间的复杂空间关系,并获得更好的检测性能。基于CNN的主流目标检测器可以分为基于 Anchor 框和无需 Anchor 框两类。基于 Anchor 框的检测器使用预定义的 Anchor 框来预测目标位置和大小,这提供了更好的准确性,但可能会受到 Anchor 框设计偏差的影响。无需 Anchor 框的检测器直接回归目标的中心和大小,不使用 Anchor 框。
集智书童公众号
2024-04-13
2500
ViT终于有挑战 MobileNet 的勇气了 | HSViT用更少的参数,干翻 MobileNet/EfficientNe!
Vision Transformer, 图像级特征嵌入, 水平扩展, 卷积神经网络, 计算机视觉需要对ViTs进行预训练,因为它们缺乏与卷积神经网络(CNNs)中存在的类似的归纳偏置。特别是,CNNs内在地结合了多种归纳偏置,使它们适合于计算机视觉(CV)任务,如平移不变性、空间局部性和层次化特征学习。
集智书童公众号
2024-04-12
2120
3D-COCO数据集开源 | COCO数据集迎来3D版本开源,为COCO数据集带来3D世界的全新任务,2D-3D完美对齐 !
近十年来,目标检测已经成为计算机视觉领域的核心话题。这种日益增长的兴趣源于自动驾驶、人群计数、异常检测和智能视频监控等新挑战。因此,多年来已经开发出了许多创新型的神经网络,如Faster R-CNN [4],YOLO [5],SSD [6]和DETR [7]。大多数这些架构的性能都是通过像Pascal VOC [8],Open Images [9]和MS-COCO [1]这样的广泛使用的数据集进行评估和比较的。
集智书童公众号
2024-04-12
1550
台大提出 DQ-DETR | 用简简单单 3 步改进 DETR 即可完成小目标检测的大跨越
卷积神经网络(CNNs)在处理RGB语义和空间纹理特征方面具有优势。大多数目标检测方法主要基于CNNs。例如,Faster R-CNN 引入了一个区域 Proposal 网络来生成潜在的目标区域。FCOS 应用一个中心预测分支来提高边界框的质量。
集智书童公众号
2024-04-12
2250
华中科大提出YOLOOC | 源于 YOLO又高于YOLO,任何类别都不在话下,误检已是过往
物体检测在计算机视觉中具有基础性作用。它旨在定位并识别图像中的物体。近年来,深度模型极大地推进了其进展。大多数先前的工作都是为闭集检测而设定的,其中所有需要在训练阶段检测的类别都是可用的。尽管现有模型在闭集设置中表现良好,但当面对新物体类别(即开集、开类或开放世界物体检测,OWOD)时,其性能会显著下降。
集智书童公众号
2024-04-12
1750
炼丹终结者出现 | 单卡3.29s可训练精度94%的Backbone,仅仅眨眼功夫,离大谱
CIFAR-10(Krizhevsky等人,2009年)是机器学习中最受欢迎的数据集之一,每年支持数千个研究项目。如果能够提高在CIFAR-10上训练神经网络的速率,那么可以加快研究进度并降低实验成本。在本文中,我们介绍了一种训练方法,在单个NVIDIA A100 GPU上仅需3.29秒就能达到94%的准确率,这比之前的最佳水平(tysam-code,2023年)提高了1.9倍。为了支持需要更高性能的场景,我们另外开发了针对95%和96%准确率的方法。
集智书童公众号
2024-04-12
1390
厦门大学突破 SRKD框架 | 雨天无阻,显著提高了检测精度
近年来,利用点云数据进行三维目标检测的研究兴趣日益增长。为了在自动驾驶等领域广泛应用,这些模型必须在多种环境下展现出稳健的性能。尽管在基准数据集上的三维目标检测已经取得进展,但在恶劣天气条件(例如,雨天)下实现一致且可靠性能仍是一个开放的挑战。
集智书童公众号
2024-04-12
1200
性能与速度的双重突破 | 预训练大语言模型的高效加速与LLM-to-SLM解码优化!
近期大型语言模型(LLMs)的广泛应用使得自然语言生成(NLG)领域的各种应用成为可能,从机器翻译和代码补全等到通用聊天机器人OpenAI。它们的性能是计算能力、数据集大小和参数数量的函数等);只有在大型规模下才会出现新兴的能力,这些发现使得大型模型变得更加流行,无论是仅在解码器上的模型还是编码器-解码器网络等。
集智书童公众号
2024-04-12
1690
HEAL-ViT | 球形网格与Transformer的完美结合,引领机器学习预测新纪元!
近年来,各种机器学习天气预测模型(MLWPs)在中期天气预报方面表现出了强大的性能,这被定义为从给定初始条件下生成10天预报的任务。MLWPs通常在ECMWF的ERA5数据集(Hersbach等人,2020年)上进行训练,并在关键指标上超过了通常被认为是数值天气预报(NWP)领域最先进技术的ECMWF IFS模型(Haiden等人,2018年)。多种模型结构都成功地生成了高质量的10天预报,其中突出的模型包括FourCastNet(Pathak等人,2022年)、Pangu-Weather(Bi等人,2023年)、GraphCast(Lam等人,2022年)和FuXi(Chen等人,2023年),这些模型在ERA5数据集(Hersbach等人,2020年)提供的原生0.25
集智书童公众号
2024-04-12
1020
EnYOLO | 实现SOTA性能的实时图像增强与目标检测框架
为了应对这些挑战,作者引入了EnYOLO,这是一个集成的实时框架,旨在同时进行具有领域自适应能力的UIE和UOD。 具体来说,UIE和UOD任务头共享相同的网络主干,并采用轻量级设计。此外,为了确保两个任务的平衡训练,作者提出了一种多阶段训练策略,旨在持续提升它们的性能。 另外,作者提出了一种新颖的领域自适应策略,用于对来自不同水下环境的特征嵌入进行对齐。全面实验表明,作者的框架不仅在UIE和UOD任务上达到了最先进(SOTA)的性能,而且在应用于不同的水下场景时也显示出卓越的适应性。作者的效率分析进一步突显了框架在船上部署的巨大潜力。
集智书童公众号
2024-04-12
1020
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档