未来先知-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

未来先知

专栏成员

25

文章

874

阅读量

14

订阅数

从 ResNet 到 BLite ：人脸检测中的模型轻量化实践！

模型实践数据网络性能

人脸检测是计算机视觉应用（如人脸追踪、人脸识别、性别分类和情绪识别）的重要第一步。其主要目标是精确地定位图像中的人脸区域。特别是在密集人群（小脸）、以及恶劣条件下，如人脸姿态变化、低光照、遮挡和图像质量差（模糊）等情况下，挑战尤为明显。一个最优的人脸检测系统应该在保持低计算成本的同时，能够高精度地定位图像中的人脸。

2024-07-05

120

物理智能领航：构建通用机器人软件，引领未来智能机器人革命！

工作模型软件人工智能机器人

物理智能正在构建旨在为可以学习广泛任务的机器人提供动力的软件，一家名为“Physical Intelligence”的初创公司已着手改变这种情况。该公司今年由机器人和人工智能专家团队组建，计划开发软件，为各种机器人和机器添加高级智能。或者，正如联合创始人兼首席执行官卡罗尔·豪斯曼 (Karol Hausman) 在 Physical Intelligence 自公司成立以来的首次公开采访中所说：“我们的目标是通过通用模型将人工智能带入物理世界，该模型可以为任何机器人或任何物理设备提供动力，基本上是为了任何应用程序。”

2024-07-04

230

FocSAM 分割质量 SOTA 的同时显著降低计算成本！

模型数据效率性能优化

互动分割通过使用有限的手动标注提高扩大图像分割数据集的效率，避免了完全标记的繁琐工作。最近，Segment Anything Model (SAM) 在实时、高质量的互动分割方面表现出色，能够响应标注者的提示，如点击、边界框或粗略 Mask 。

2024-07-04

390

基于 Transformer 进行检测，没有花哨的技巧，ChangeVi 取得最先进的表现！

模型数据网络性能技巧

变化检测在遥感领域扮演着至关重要的角色，它使用在不同时间获取的同一地理区域的双时相图像对来追踪地球表面随时间的变化[1]。它已被广泛应用于各种应用，如灾害评估[2]、城市规划[3]、耕地保护[4]和环境管理[5]。近年来，卷积神经网络（CNNs）已成为最先进变化检测器的主要 Backbone 选择，因为它们可以提取丰富的层次特征以检测不同大小的变化。

2024-07-04

400

蚂蚁集团优化 Query 设计，即插即用框架改进目标检测 Baselines，DETR 变体显著性能提升！

优化框架模型设计性能

目标检测在自动驾驶、视频监控和机器人操作等众多应用中至关重要。在过去的几十年里，卷积架构在检测方法上推动了显著的发展。这些算法通常需要一个人工设计的模块来生成 Anchor 点，这些 Anchor 点作为目标检测的初步候选。此外，非最大抑制（NMS）对于防止重复检测是不可或缺的。最近，Carion等人提出了一种全新的端到端目标检测方法，名为DEtection TRansfomer（DETR）。与之前的检测算法相比，DETR使用学习到的 Query 来独特预测物体，从而无需生成 Anchor 点和NMS。这种方法简化并统一了检测流程，但训练收敛速度较慢。

2024-07-04

300

华中科技 & 微软提出 LaViT | 简化注意力机制，提升视觉Transformer效率！

架构模型数据效率性能

近年来，计算机视觉领域经历了快速的增长和发展，这主要得益于深度学习的进步和大规模数据集的可用性。在众多突出的深度学习方法中，卷积神经网络（CNNs）[8]特别有效，在包括图像分类[8, 28]、目标检测[5, 22]和语义分割[1, 23]在内的广泛应用中表现出卓越的性能。

2024-07-04

580

视觉任务中真的需要 Mamba吗？

开发模型网络性能递归

近年来，Transformer [76]已成为各种任务的主流 Backbone 网络，支撑着诸如BERT ，GPT系列和ViT [23]等众多杰出模型。然而，Transformer的标记混合器——注意力[3]，随着序列长度的增加，其复杂度呈现二次增长，给长序列带来了重大挑战。

2024-07-04

300

双解码器与混合 CNN-Transformer ：D-TrAttUnet 在成像分割任务上，超过现有最佳解决方案！

解决方案连接数据性能架构

自从高级深度学习方法，特别是卷积神经网络（CNNs）的发展以来，它们已成为医学影像分割的主导方法，包括像U-Net、关注U-Net（AttUnet）和U-Net++（Unet++）这样的架构。

2024-07-04

320

分辨率降低，性能不降：LoReTrack实现高效Transformer跟踪！

工作模型设计搜索性能

视觉跟踪的目标是在整个视频中持续定位感兴趣的目标。它是计算机视觉的基本问题，并在过去几十年因其在前瞻性应用（如视觉监控、机器人技术等）中的重要作用而受到广泛关注。近年来，随着Transformer [33; 11] 的引入，跟踪领域取得了显著进步。许多高性能的Transformer跟踪器已被提出，并展示了前所未有的准确性。尽管如此，它们通常存在计算负担沉重的问题，这大大限制了它们在实际应用中的部署。

2024-07-04

310

单目3D目标检测 MonoMAE | 应对遮挡挑战，实现精准识别与定位！

设计数据网络性能测试

三维目标检测已成为各种导航任务的关键组成部分。与先前依赖激光雷达[23, 56, 60]或多视角图像[24, 27, 53]的研究相比，单目三维目标检测提供了一种更具成本效益且易于获取的替代方案，它通过单视角图像识别物体并预测其三维位置。另一方面，由于缺乏多视角图像或激光雷达数据中的三维信息，单目三维目标检测要更具挑战性。

2024-07-04

410

LayerMerge: 一种新颖的深度压缩方法，移除激活层和卷积层，实现推理加速的同时最小化性能损失！

网络性能压缩优化模型

卷积神经网络（CNNs）在各种基于视觉的任务中表现出色，如分类、分割和目标检测（Krizhevsky等人，2012年；Chen等人，2018年；Girshick，2015年）。近来，采用基于U-Net架构的扩散概率模型在各种高质量图像生成任务中显示出极大的性能。然而，随着这些模型规模的扩大，它们在复杂视觉任务上的出色能力是以越来越高的计算资源和推理延迟为代价的（Nichol和Dhariwal，2021年；Liu等人，2022年）。

2024-07-04

320

从 SAM 到 MASA，让任何检测模型都能零样本跟踪目标！

测试模型视频数据性能

多目标跟踪（MOT）是计算机视觉中的基本问题之一。它在许多机器人系统（如自动驾驶）中起着关键作用。跟踪需要在视频中对感兴趣的目标进行检测并将它们跨帧关联。尽管最近的视觉基础模型[33, 35, 40, 47, 70, 78]在检测、分割和感知任何目标的深度方面表现出非凡的能力，但在视频中关联这些目标仍然具有挑战性。最近成功的多目标跟踪方法[36, 66]强调了学习判别性实例嵌入对于准确关联的重要性。有些[46]甚至认为，除了检测之外，它是最必要的跟踪组件。

2024-07-04

370

FouRA：傅里叶域中的创新低秩方法提升文本到图像生成多样性 !

数据 LoRa adapter 函数模型

图1：使用LoRA导致的分布崩溃。由Realistic Vision 3.0模型生成的视觉结果，该模型使用LoRA和FouRA训练了“蓝火”和“折纸”风格 Adapter ，跨越四个种子。虽然LoRA图像遭受分布崩溃且缺乏多样性，但作者观察到FouRA生成了多样化的图像。

2024-07-04

360

阿里 & 字节提出 ARM 自回归预训练，解锁 Mamba 架构在视觉任务中的强大潜力！

集群架构模型性能 arm

在自然语言处理（NLP）中，状态空间模型（SSMs）在以线性复杂度建模长序列方面显示出巨大潜力。其中，一个最近的变体，Mamba [12]，通过综合选择性扫描的最佳属性，显著超越了传统的SSMs。这一创新也促进了其在视觉社区的快速采用，被应用于各种视觉任务中。包括新型架构的设计，以及在分割[26; 48; 49]和图像合成[16]中的应用。

2024-07-04

460

详细说明了 YOLOv1 到 YOLOv10 背后的基础原理和架构，以及探讨实际项目应用！

原理基础架构模型数据

近年来，计算机视觉与农业的交叉领域取得了显著进展，开启了一个精准农业和农业管理变革的时代。[1]在推动这一范式转变的关键技术中，You Only Look Once（YOLO）算法的演变尤为突出，这是一系列表现出卓越效率和准确性的目标检测器。本文旨在深入探讨主流的YOLO变体，从YOLOv1开始，直至最新的YOLOv10。特别是，此次探索试图揭示YOLO变体在改变农业实践和促进可持续发展方面的潜力。由Joseph Redmon于2015年引入的YOLO目标检测器家族，在目标检测架构目录中标志着一个分水岭时刻。YOLO的独特之处在于它能够通过将输入图像划分为网格矩阵，同时预测边界框和类别概率来进行实时目标检测。[2]这种从传统两阶段方法向单阶段方法的转变显著提高了速度，同时保持了有竞争力的准确性，为后续YOLO迭代奠定了基础。随着YOLO改革的进行，每个变体在引入新颖技术以改善边缘性能的同时，也解决了原有的局限性。从YOLOv1到YOLOv10的转变见证了在架构设计、训练策略和优化技术等多个领域的进步。后来的YOLO变体旨在解决诸如小目标目标、遮挡以及提高不同数据集上的性能等挑战。为了充分理解YOLO变体在农业等复杂子领域中的潜在适用性，理解这些复杂性至关重要。

2024-07-04

450

复旦 & 上海 AI 实验室提出 Adapter-X ，参数显著减少，实现2D图像和3D点云模态的卓越性能 !

效率性能 adapter 模型设计

受到这一洞见的启发，作者引入了一种名为Adapter-X的新框架。首先，提出了一个共享 Adapter 混合（SMoA）模块，以同时满足 Token Level 的动态分配、增加可调参数以及块间共享。其次，引入了一些针对特定块的设计，如提示生成器（PG），以进一步增强适配能力。在2D图像和3D点云模态的广泛实验表明，Adapter-X代表了重要的里程碑，因为它首次在2D图像和3D点云模态中，在参数显著减少的情况下，即只有2D和3D分类任务原始可训练参数的和，超过了全量微调的性能。

2024-07-04

350

又超越 CNN、Transformer ？ CAF-MambaSegNet 探索无卷积和自注意力的图像分割新路径！

模型数据网络图像分割架构

近期，Mamba在计算机视觉领域得到了重视，并将门控MLP []集成到H3 []的SSM中。读者可以参考以更全面地理解这一主题。在这里，作者将列出一些用于医学图像分割的相关Mamba架构。Mamba-UNet []将基于VMamba的[]编码器-解码器结构整合到UNet中。VMamba的Cross-Scan Module以四种方式扫描输入图像，以整合来自所有其他位置的特征元素的信息。Mamba-UNet在整个U型架构中使用这些VMamba块来捕捉强度图像的语义上下文。视觉Mamba UNet（VM-UNet）扩展了视觉Mamba ，使用名为Visual State Space的基础块。其非对称的编码器-解码器结构利用SSM捕获上下文信息，同时保持线性计算复杂性。

2024-07-04

280

即插即用 AdaNCA ，改善ViT的对抗样本性能，为视觉Transformer带来显著性能提升！

集合架构模型网络性能

视觉 Transformer （ViTs）通过自我注意力机制全局建模token间的交互，在图像分类中表现出令人印象深刻的性能。近期工作显示，将局部信息整合到ViTs中，例如使用区域注意力或卷积，进一步增强了ViT在图像分类中的能力。尽管先进的局部结构有助于更好地捕捉局部信息，但ViTs的鲁棒性并未增强。它们仍然容易受到噪声输入的影响，例如对抗样本和分布外（OOD）输入。

2024-07-04

500

北航 & 上海智能实验室提出 CDMamba | 缩放残差卷积和特征融合增强 Mamba ，用于检测任务，性能 SOTA ！

网络性能函数模型数据

变化检测在遥感技术不断发展的推动下，已成为遥感界的一个热门研究领域。这项任务的目的是利用在不同时间获取的遥感图像来监测同一地区地表的变化。变化检测在诸如城市规划、土地覆盖分析[5]、灾害评估[6, 7]、生态系统监测以及资源管理[12]等各个领域都发挥着至关重要的作用。

2024-07-04

590

马斯克宣布 Grok-1.5 挑战 GPT-4 | 具有改进的推理能力和 128,000 个令牌的上下文长度！

表格测试模型图表 gpt

xAI 表示将于近期邀请早期测试者和现有的 Grok 用户测试 Grok-1.5 Vision（Grok-1.5V），不仅能理解文本，还能处理文档、图表、截图和照片中的内容。

2024-07-04

240

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态