首页
学习
活动
专区
工具
TVP
发布

未来先知

专栏成员
34
文章
3771
阅读量
10
订阅数
FFAM: 用于解释三维探测器的特征分解激活图 !
近年来,基于激光雷达(LiDAR)的三维目标检测技术迅速发展,广泛应用于自动驾驶、工业自动化和机器人导航等领域。然而,现有的检测方法主要依赖具有高度非线性和复杂结构的深度神经网络。本质上,这些模型可以被视为“黑箱”系统。这种不透明的建模技术阻碍了用户完全信任检测模型,特别是在敏感和高风险领域。因此,迫切需要理解这些内在不透明模型的决策过程。
未来先知
2024-08-21
870
基于 Transformer 的多模态融合方法用于语义分割 !
环境语义分割是自动驾驶中的一个挑战性课题,并在诸如操纵、路径规划和场景理解等智能车辆相关研究中发挥着关键作用。由于深度神经网络的进步,特别是卷积神经网络(CNN),以及开放数据集的可用性,语义分割领域已取得了巨大进展。早期研究采用相机的RGB图像作为输入,并用具有相对单调场景的数据集进行测试。近年来,感知传感器行业的蓬勃发展以及严格的安全要求推动了涉及不同传感器和综合场景的语义分割研究。在各种研究中,激光雷达传感器(LiDAR)参与最多。流行的仅激光雷达方法包括VoxNet[6]、PointNet[7]和RotationNet[8]。然而,多模态传感器融合被视为解决自动驾驶问题的有前途的技术,并已成为语义分割的主流选择。
未来先知
2024-08-20
580
超越Yolov8/Yolov9,用Hyper图方法释放YOLO系列的所有潜能 !
YOLO系列是目标检测领域的主流方法,为各种应用场景提供了多种优势。YOLO的架构包括两个主要部分:backbone 和 neck 。尽管backbone主要用于特征提取,但已经取得了广泛的研究成果,而neck负责多尺度特征的融合,为各种大小的目标的检测提供了强大的基础。本文特别关注的是neck,这对于提升模型在检测不同尺度物体方面的能力至关重要。
未来先知
2024-08-20
910
TS-SAM 通过轻量级卷积侧 Adapter 优化 SAM 微调!
作为在超过1100万张图像上预训练的大型视觉模型,Segment-Anything Model (SAM)[1]引起了研究行人的关注。然而,最近的研究表明,SAM在下游任务上表现不佳,包括伪装物检测[2,3]、阴影检测[3]和显著物检测[4]。
未来先知
2024-08-20
1100
PTINet:一种融合 C-LSTM、LSTM-VAE 和 MLP 的多任务行人行为预测框架 !
自动驾驶车辆(AV)近年来发展迅速,安全性被视为首要任务[1]。确保安全的关键一步是准确预测行人的行为。这种能力使得自动驾驶车辆能够识别并避免潜在的碰撞。例如,如果无法预测行人穿越道路的意图,自动驾驶车辆将只能在行人出现在道路上时启动刹车。这限制了反应时间,显著增加了无法及时停车的风险,可能导致事故发生。因此,高效、准确地预测行人行为对于保障人-AV交互安全至关重要。
未来先知
2024-08-20
530
LAM3D 框架:利用视觉 Transformer 实现高效的单目3D目标检测 !
目标检测是计算机视觉中的一个基本任务,它涉及到在图像或视频中检测并定位特定的类别目标。2D目标检测意味着确定目标在图像中的位置(以2D边界框表示),并对目标进行特定类别的分类。最先进的目标检测方法可分为两阶段方法([1, 2, 3])和单阶段方法([4, 5, 6])。两阶段方法遵循 Proposal 驱动的方法:第一阶段生成一组区域 Proposal ,第二阶段使用卷积神经网络将候选位置(目标或背景)分类为目标,并对其进行优化。尽管准确性很高,但它们在推理速度方面存在缺陷,这推动了单阶段目标检测器的需求。单阶段方法通过依赖预定义的 Anchor 框,依靠卷积神经网络在一次通过网络时进行目标定位和分类。
未来先知
2024-08-20
860
南洋理工 & 清华 & 伦敦帝国 & 西湖大学开源 MeshAnything V2 | AMT 技术提升网格生成性能和效率 !
南洋理工 & 清华 & 伦敦帝国 & 西湖大学开源 MeshAnything V2 | AMT 技术提升网格生成性能和效率 !
未来先知
2024-08-20
800
参数极少、速度极快 , UHNet 轻量级边缘检测技术 !
边缘检测是计算机视觉中的关键基础技术,对各种医学图像处理领域产生了深远的影响,如X光片,CT扫描和MRI图像。这些图像包含丰富的结构信息,边缘是这些结构的重要表现。准确的边缘检测不仅有助于病理区域的精确定位,而且还为后续图像分析和诊断提供了强大的支持。因此,轻量、快速和高性能的边缘检测模型在实际部署场景中面临着越来越复杂的挑战。
未来先知
2024-08-14
1070
代码开源:AMFD 框架助力多光谱行人检测的精度与速度提升 !
行人检测是计算机视觉中的一个关键问题,应用范围从自动驾驶车辆[1]到监控系统[2]。使用可见图像的现代研究在常规光照条件下表现良好。然而,由于对光照条件的敏感性,可见光在复杂的低光照场景中表现出差的检测性能。为了缓解这一限制,引入了热红外图像来提供补充数据,从而探索多光谱行人检测[3]作为一个有效的解决方案。
未来先知
2024-08-13
1080
解耦Query与上下文窗,多尺度学习器,突破语义分割中的尺度不足与场失效问题 !
在语义分割中,有两种典型的学习多尺度表示的方法。第一种涉及应用具有可变感受野的滤波器,经典技术如孔洞卷积(Chen等人,2018)或自适应池化(Zhao等人,2017)。通过调整超参数,如膨胀率和池化输出大小,网络可以改变感受野以在多个尺度上学习表示。
未来先知
2024-08-13
790
基于改进 YOLOv10 的自助结算系统 !
受到数字革命的推动,传统零售商店面临着众多转型挑战与机遇。随着消费者需求的多样化以及购物行为的快速演变,传统零售店结账流程的低效率问题日益凸显,常常导致客户体验不佳。尤其是在高峰时段,顾客可能需要长时间等待支付,这负面影响了他们的购物体验,并限制了商店的容量和销售增长潜力。
未来先知
2024-08-13
990
平衡全局与局部:一种新型数据集蒸馏方法 !
数据集大小的扩展显著推动了深度学习的近期进展,尤其是在计算机视觉领域。然而,依赖大型数据集带来挑战,因为它常常导致相当大的训练开支。
未来先知
2024-08-13
950
BiTrack,使用摄像机-激光雷达数据的双向离线三维多目标跟踪 !
许多应用需要离线多目标跟踪(OMOT)技术来实现高精度的目标轨迹,例如运动分析和数据集标注。实时多目标跟踪(MOT)通常采用跟踪-by-检测或联合检测与跟踪[5]方案。相比之下,OMOT更倾向于前者,因为许多后处理和全局优化技术依赖于检测结果。大多数OMOT关联框架可以分为两类:
未来先知
2024-08-09
810
EDAFormer: 一种新型的编码器-解码器注意力 Transformer 用于高效语义分割 !
语义分割旨在为整张图像获取准确的像素级预测,是计算机视觉领域最基本任务之一[32, 42],并被广泛应用于各种下游应用。
未来先知
2024-08-08
1340
VSSD 在图像分类、检测与分割中的应用, 刷新基于 SSM 的模型 SOTA 榜 !
近年来,由Vision Transformer(ViT)[9]引领的视觉 Transformer (vision transformers)在计算机视觉领域取得了巨大成功。得益于注意力机制的全局感受野和强大的信息建模能力,基于视觉 Transformer 的模型在分类[7]、检测[32]和分割[66]等各项任务中均取得了显著进展,超越了经典的基于CNN的模型。然而,注意力机制的二次计算复杂度使得它在处理长序列的任务中资源消耗巨大,这限制了其更广泛的应用。
未来先知
2024-08-08
1150
南大 & 吉大 & 移动 优化Pipeline设,VLM 和 LLM 助力提升物体图像修复效果 !
扩散模型的快速发展已经革命化了图像修复[1]。文本到图像生成模型使用户能够利用文本或多模态信息控制扩散过程,从而通过将文本或其他模态作为附加线索,允许更个性化的图像修复。同时,研究行人正在尝试更具挑战性的修复任务,如背景条件下的目标幻觉或前景条件下的图像完整性。特别是,HD-painter 引入了一种无需训练的方法,通过引入新颖的Prompt-Aware Introverted Attention(PAInA)层,精确遵循提示,并无缝扩展到高分辨率图像修复。BrushNet 提出了一种新颖的即插即用的双分支模型,旨在将像素级 Mask 图像特征集成到任何预训练的扩散模型中,确保修复结果的连贯性和改进。LayerDiffussion 使大规模预训练的潜在扩散模型能够通过学习“潜在透明度”生成单张透明图像或多层透明图像,从而实现前景或背景条件下的图像修复。
未来先知
2024-08-08
840
STN 也来卷 YOLO 了,提升图像检测的质量,并可用于下游应用 !
植物表型分析对于作物改良[1]、产量优化[2]和可持续实践[3]至关重要。人工智能(AI),特别是目标检测算法,已经改变了植物表型分析,提高了效率和性能[4]。You Only Look Once(YOLO)已经在各种农业应用中有效地使用,例如害虫检测[5]、作物疾病检测[6]和作物收获[7]。尽管有大量的使用案例,但由于各种空间变换[8],YOLO仍有一些局限性。空间变换网络[9]是一种提高人工神经网络对空间变换鲁棒性的方法。作者 Proposal 将STN与YOLO模型集成,以引入空间不变性。STN对图像应用可学习的仿射变换,这将有助于目标检测。STN-YOLO模型展示了空间不变性,并在几个农业基准数据集上超越了基本的YOLO模型。
未来先知
2024-08-08
1580
多模态Mamba分类器,融合3D GAN 与 ViT 进行高效特征提取与分类 !
阿尔茨海默病(AD)是老年人中常见的一种神经退行性疾病,它影响记忆力、认知功能以及日常生活活动。AD通常从轻度认知障碍(MCI)进展而来,尤其是遗忘型MCI(aMCI),其主要特征是记忆力下降。尽管aMCI患者经历了明显的记忆丧失,但他们的认知功能尚未下降到痴呆症的水平。预测aMCI患者是否会在一到三年内进展为AD对于预后至关重要。早期识别高风险患者可以制定个性化的治疗和干预计划,这有助于减缓疾病进展并提高生活质量。此外,早期预测还支持患者及其家人做出明智的决定,使他们能够在心理和实践上做好准备。研究表明,早期发现和有针对性的干预可以显著减缓或阻止AD的进展。医生使用预后预测来采取适当的管理和治疗策略。对于高风险患者,通常会采用更为积极的干预措施,如药物治疗和认知训练。诸如胆碱酯酶抑制剂(例如,多奈哌齐)和NMDA受体拮抗剂(例如,美金刚)等药物可以减轻认知症状并延缓疾病进展。对于那些预计不会很快恶化的患者,建议进行定期监测和生活方式干预。常规的认知评估和年度神经影像学检查可以早期发现潜在的变化,而非药物治疗,如认知训练有助于维持或改善认知能力。调整生活方式,包括改善饮食、锻炼和心理支持,可以增强整体健康并提高对疾病的抵抗力[1]。
未来先知
2024-08-08
1940
U-Net 架构的演进,结合领域分解与通信网络的超高分辨率图像分割新策略 !
在本文中,大部分计算机视觉领域的深度学习模型专注于低分辨率的2D和3D图像,通常是256×256像素或更小。然而,随着高分辨率图像数据集的广泛应用,由于单个GPU的内存限制,带来了新的挑战,尤其是在图像语义分割等内存密集型任务中。语义分割是将输入图像中的像素分类到不同的、不重叠的语义类别中的计算机视觉任务。超高分辨率图像分割在卫星图像中的目标分割、金属表面缺陷检测以及计算机辅助医学诊断等多样化领域具有重要意义。尽管深度卷积神经网络(CNNs)在图像分割方面取得了显著的成功,但大多数模型由于对内存的高要求,不适用于高分辨率图像的模型训练和推断。
未来先知
2024-08-08
1250
南洋理工提出 Nested-TNT,提升 Transformer 效率,在视觉识别任务中的性能飞跃 !
Transformer的诞生[23]开启了大型模型的时代,并加速了自然语言处理领域的发展。Transformer的提出解决了传统卷积神经网络(CNNs)[1]在捕捉全局特征方面的不足,并提高了模型的泛化能力。与传统的循环神经网络相比,Transformer允许并行计算,提高了计算效率。Transformer网络的核心是自注意力机制,它关注每个元素对全局的依赖关系,即模型可以关注上下文信息,并允许双向推理。
未来先知
2024-08-08
1160
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档