在过去的一年中,计算机视觉领域出现了许多优秀的工作,并推动了相关领域的技术发展与进步。去年上半年,极市曾盘点过计算机视觉领域综述论文,并进行了分类整理,得到了很多读者的支持。因此,在2021年初,我们对2020年出现的全部计算机视觉综述论文进行了分方向梳理,希望能帮助大家学习进步。
VIW Fusion是一种基于优化的视觉+惯导+轮速的里程计方案,感谢由港科大空中机器人小组在VINS Fusion方面所做的杰出工作,VIW融合是在VINS融合的基础上发展起来的。主要特征有:
论文解读: Quantized Convolutional Neural Networks for Mobile Devices
上次盘点了2019年 目标检测比较亮眼的综述汇总,详见: 大盘点 | 2019年4篇目标检测算法最佳综述。很多 CVers在微信学术交流群反映:有没有图像分割的综述大盘点,有没有目标跟踪的综述大盘点,有没有...
前不久 Amusi 整理了 图像分割(Image Segmentation)较为值得关注的综述论文:大盘点 | 2019年5篇图像分割算法最佳综述
论文名称:Bi-Directional ConvLSTM U-Net with Densley Connected Convolutions
文章:SAGE-ICP: Semantic Information-Assisted ICP
文章:Deep Learning for Image and Point Cloud Fusion in Autonomous Driving: A Review
SAM (Segment Anything )作为一个视觉的分割基础模型,在短短的 3 个月时间吸引了很多研究者的关注和跟进。如果你想系统地了解 SAM 背后的技术,并跟上内卷的步伐,并能做出属于自己的 SAM 模型,那么接下这篇 Transformer-Based 的 Segmentation Survey 是不容错过!近期,南洋理工大学和上海人工智能实验室几位研究人员写了一篇关于 Transformer-Based 的 Segmentation 的综述,系统地回顾了近些年来基于 Transformer 的分割与检测模型,调研的最新模型截止至今年 6 月!同时,综述还包括了相关领域的最新论文以及大量的实验分析与对比,并披露了多个具有广阔前景的未来研究方向!
SAM (Segment Anything )作为一个视觉的分割基础模型,在短短的3个月时间吸引了很多研究者的关注和跟进。
图像语义分割是将图像分割成几组有某种特定语义含义的像素部分,最终获得具有语义标注的图像。应
文章:LiDAR-Based Place Recognition For Autonomous Driving: A Survey
文章:Robust Intrinsic and Extrinsic Calibration of RGB-D Cameras
导读/ 3D点云学习( Point Clouds)作为近年来的研究热点之一,受到了广泛关注,每年在各大会议上都有大量的相关文章发表。当前,点云上的深度学习变得越来越流行,人们提出了许多方法来解决这一领域的不同问题。国防科技大学郭裕兰老师课题组新出的这篇论文对近几年点云深度学习方法进行了全面综述,是第一篇全面涵盖多个重要点云相关任务的深度学习方法的综述论文,包括三维形状分类、三维目标检测与跟踪、三维点云分割等,并对点云深度学习的机制和策略进行全面的归纳和解读,帮助读者更好地了解当前的研究现状和思路。也提供了现有方法在几个可公开获得的数据集上的全面比较,最后也介绍了未来的研究方向。
文章:Monocular Simultaneous Localization and Mapping using Ground Textures
提出语义区域自适应归一化(SEAN),它是条件生成对抗网络的简单但有效的构建块(条件是描述输出图像中的语义区域的分割mask)。基于SEAN,可以构建单独控制每个语义区域风格的网络结构,例如可为每个区域指定一个风格参考图像。代码:https://github.com/ZPdesu/SEAN
欢迎大家来到《知识星球》专栏,今天给大家介绍一下人像分割相关的几个数据集,并提供下载。
文章:RoadMap: A Light-Weight Semantic Map for Visual Localization towards Autonomous Driving
文章:LineMarkNet: Line Landmark Detection for Valet Parking
文章:LOG-LIO: A LiDAR-Inertial Odometry with Efficient Local Geometric Information Estimation
上周花了半天时间在Windows下安装pytorch库,这里记录了参考博客和踩坑过程,我也不知道我能坚持多久,但我想通过记录的方式让这个过程更有趣,更有意义,期待朋友们的一起分享,理论课程固然重要,但实践出真知,所以还是先配置环境,并运行一些实例激发我们的兴趣吧!
文章:OpenOccupancy: A Large Scale Benchmark for Surrounding Semantic Occupancy Perception
文章:Multi-LiDAR Localization and Mapping Pipeline for Urban Autonomous Driving
虽然这里说的都是图像,但其实视频也属于计算机视觉的研究对象,所以还有视频分类、检测、生成,以及追踪,但篇幅的关系,以及目前研究工作方向也集中于图像,暂时就不介绍视频方面应用的内容。
作为计算机视觉(CV)研究中长期存在的挑战,视觉识别(如图像分类、目标检测和语义分割)是自动驾驶、遥感等众多计算机视觉应用的基石。深度学习的出现使得视觉识别取得了巨大成功。然而,现有的视觉识别研究大多依赖于昂贵的标注数据进行深度神经网络训练,并且通常需要为每个任务训练一个独立的网络,这导致了耗时费力的识别模式。
6月第一周的周末,分享几篇本周CV领域的论文,其中上海交大实时语义分割模型LRNNet和Facebook借助NAS得到的主干网模型FBNetV3很吸引人。
文章:Intensity Scan Context: Coding Intensity and Geometry Relations for Loop Closure Detection
3D点云学习( Point Clouds)作为近年来的研究热点之一,受到了广泛关注,每年在各大会议上都有大量的相关文章发表。当前,点云上的深度学习变得越来越流行,人们提出了许多方法来解决这一领域的不同问题。国防科技大学郭裕兰老师课题组新出的这篇论文对近几年点云深度学习方法进行了全面综述,是第一篇全面涵盖多个重要点云相关任务的深度学习方法的综述论文,包括三维形状分类、三维目标检测与跟踪、三维点云分割等,并对点云深度学习的机制和策略进行全面的归纳和解读,帮助读者更好地了解当前的研究现状和思路。也提供了现有方法在几个可公开获得的数据集上的全面比较,最后也介绍了未来的研究方向。
代码:https://github.com/USTCLH/OCC-VO.git (coming soon)
文章;LESS-Map: Lightweight and Evolving Semantic Map in Parking Lots for Long-term Self-Localization
之前通过三篇文章简单介绍了机器学习常用的几种经典算法,当然也包括了目前很火的 CNNs 算法了:
文章:Lightweight 3-D Localization and Mapping for Solid-State LiDAR
写在前面:一篇魏云超博士的综述论文,完整题目为《基于DCNN的图像语义分割综述》,在这里选择性摘抄和理解,以加深自己印象,同时达到对近年来图像语义分割历史学习和了解的目的,博古才能通今!感兴趣的请根据自己情况找来完整文章阅读学习。
文章:Online Monocular Lane Mapping Using Catmull-Rom Spline
文章:Multi-Camera Visual-Inertial Simultaneous Localization and Mapping for Autonomous Valet Parking
AI 科技评论按:本文作者陈泰红,邮箱 ahong007@yeah.net,他为 AI 科技评论撰写了 Google 利用神经网络搜索实现语义分割的独家解读。
摘要:小目标检测仍然是一个尚未解决的挑战,因为很难仅提取几个像素大小的小目标信息。尽管在特征金字塔网络中进行尺度级别的相应检测可以缓解此问题,但各种尺度的特征耦合仍然会损害小目标检测的性能。本文提出了扩展特征金字塔网络(EFPN,extended feature pyramid network),它具有专门用于小目标检测的超高分辨率金字塔层。具体来说,其设计了一个模块,称为特征纹理迁移(FTT,feature texture transfer),该模块用于超分辨率特征并同时提取可信的区域细节。此外,还设计了前景-背景之间平衡(foreground-background-balanced)的损失函数来减轻前景和背景的面积不平衡问题。在实验中,所提出的EFPN在计算和存储上都是高效的,并且在清华-腾讯的小型交通标志数据集Tsinghua-Tencent 100K和微软小型常规目标检测数据集MS COCO上产生了最好的结果。
2020 年 5 月,Facebook AI 推出了 Detection Transformer(DETR),用于目标检测和全景分割。这是第一个将 Transformer 成功整合为检测 pipeline 中心构建块的目标检测框架, 在大型目标上的检测性能要优于 Faster R-CNN。
作者:Kai Wang, Zhaopan Xu, Yukun Zhou, Zelin Zang, Trevor Darrell
在这篇文章将介绍如何使用CUDA-PCL处理点云来获得最佳性能,由于PCL无法充分利用Jetson上的CUDA,NVIDIA开发了一些具有与PCL相同功能的基于CUDA的库。代码地址:https://github.com/NVIDIA-AI-IOT/cuPCL.git(只有动态库和头文件,作者说源码将在未来开源)。
文章:Maximum Likelihood Remission Calibration for Groups of Heterogeneous Laser Scanners
文章:OpenAnnotate3D: Open-Vocabulary Auto-Labeling System for Multi-modal 3D Data
快卷起来!还怕改进想不到idea吗?中国科学院、东南大学等单位联合发表最新的视觉 Transformer 综述。综述涵盖三种基本 CV 任务(分类、检测和分割)的一百多种不同的视觉 Transformer,最新模型截止至今年8月!同时,综述还包括了大量的实证分析、性能改进分析,并披露了三个具有广阔前景的未来研究方向!
机器之心 & ArXiv Weekly Radiostation 参与:杜伟、楚航、罗若天 本周论文主要包括微软亚研团队提出一种升级版SwinTransformer;字节跳动、约翰霍普金斯大学等机构组成的联合团队,提出了适用于视觉任务的大规模预训练方法 iBOT,该方法在十几类任务和数据集上刷新了 SOTA 结果,在一些指标上甚至超过了 MAE 。 目录: N-grammer: Augmenting Transformers with latent n-grams Swin Transformer V2:
文章:Occ-BEV: Multi-Camera Unified Pre-training via 3D Scene Reconstruction
综述论文翻译:A Review on Deep Learning Techniques Applied to Semantic Segmentation
此外,SOLO v2论文已经发布 https://arxiv.org/abs/2003.10152,
这周主要是对动态情景下的slam论文以及开源代码做了下收集,之前也解读过一篇类似的文献
文章:CONSTRAINED BUNDLE ADJUSTMENT FOR STRUCTURE FROM MOTION USING UNCALIBRATED MULTI-CAMERA SYSTEMS
这篇文章带领大家一起回顾这周新出的综述类文章,它们系统性回顾技术的发展,可以让读者快速找到很多有用信息。
领取专属 10元无门槛券
手把手带您无忧上云