计算机视觉工坊

代码在线跑，知识轻松学

Python精品学习库

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

博客搬家 | 分享价值百万资源包

往期视频·干货材料·成员作品 最新动态

技术创作特训营·精选知识专栏

新邀入驻腾讯云开发者社区，福利多多！

如何运用「云、端融合的数智化安全体系」高效护航数据安全

左手AI，右手安全 —— 一汽丰田数字化转型之路

论文作者：Yunze Liu, Qingnan Fan, Shanghang Zhang, Hao Dong, Thomas Funkhouser, Li Yi

ICCV | TupleInfoNCE 的对比多模态融合

与自然语言处理类似，对预训练视觉主干的迁移提高了模型在各种视觉任务上的性能。更大的数据集、可扩展的架构和新的训练方法都推动了模型性能的提升。

最大的ViT来了！谷歌提出ViT-22B：视觉Transformer扩展到220亿参数

Adding Conditional Control to Text-to-Image Diffusion Models

向文本到图像扩散模型添加条件控制

在目标检测的应用领域，水下目标检测目前仍然还是一个具有挑战的领域，本文总结了水下目标检测的关键问题、相关论文以及一些比赛的开源方案，希望对大家有帮助。

一文梳理水下目标检测方法汇总

论文链接：https://arxiv.org/pdf/2206.07669v2.pdf

NeurIPS｜Hinton团队开源：统一接口处理四大视觉任务

众所周知，点云的有效分割是许多应用的前提，例如在三维重建领域，需要对场景内的物体首先进行分类处理，然后才能进行后期的识别和重建。传统的点云分割主要依赖聚类算法和基于随机采样一致性的分割算法，在很多技术上得到了广泛应用，但当点云规模不断增大时，传统的分割算法已经很难满足实际需要，这时就需要结合深度学习进行分割。因此，本文将重点介绍5种前沿的点云分割网络，包括PointNet/PointNet++、PCT、Cylinder以及JSNet网络，最后介绍5中常用的点云分割数据集。

前沿丨基于深度学习的点云分割网络及点云分割数据集

CVPR 2022 论文尚没有完全公布，今日推荐10篇已出目标跟踪方向的论文，既有单目标跟踪也有多目标跟踪，还有无人机视觉中的跟踪问题，基于Transformer 的跟踪，点云目标跟踪，还有多目标跟踪的新范式：具有记忆的模型，和新的可见光-热成像基准数据集等。

CVPR 2022 目标跟踪方向 论文推荐~更快、 更强、更通用！

支撑影视人像抠图、医疗影像分析、自动驾驶感知等万亿级市场背后的核心技术是什么？那就要说到顶顶重要的图像分割技术。相比目标检测、图像分类等技术，图像分割需要将每个像素点进行分类，在精细的图像识别任务中不可替代，也是智能视觉算法工程师拥有关键核心竞争力的关键！

精度、速度完美平衡，最新图像分割SOTA模型重磅发布！！！

数据集地址：https://xiaodongsuper.github.io/M5Product_dataset/index.html

CVPR 2022数据集汇总｜包含目标检测、多模态等方向

AI-TOD 在 28,036 张航拍图像中包含 8 个类别的 700,621 个对象实例。与现有航拍图像中的目标检测数据集相比，AI-TOD 中目标的平均大小约为 12.8 像素，远小于其他数据集。

90+深度学习开源数据集整理｜包括目标检测、工业缺陷、图像分割等多个方向

当前大多数高级人脸识别方法都是基于深度学习而设计的，深度学习取决于大量人脸样本。但是，目前尚没有公开可用的口罩遮挡人脸识别数据集。为此，这项工作提出了三种类型的口罩遮挡人脸数据集，包括口罩遮挡人脸检测数据集（MFDD），真实口罩遮挡人脸识别数据集（RMFRD）和模拟口罩遮挡人脸识别数据集（SMFRD）。基于这些数据集，可以开发口罩遮挡人脸的各种应用。本项目开发的多粒度口罩遮挡人脸识别模型可达到95％的准确性，超过了行业报告的结果。

开源真实场景图像检测数据集汇总

训练自动驾驶系统需要高精地图，海量的数据和虚拟环境，每家致力于此方向的科技公司都有自己的方法，Waymo 有自己的自动驾驶出租车队，英伟达创建了用于大规模训练的虚拟环境 NVIDIA DRIVE Sim 平台。近日，来自 Google AI 和谷歌自家自动驾驶公司 Waymo 的研究人员实践了一个新思路，他们尝试用 280 万张街景照片重建出整片旧金山市区的 3D 环境。

为了自动驾驶，谷歌用NeRF在虚拟世界中重建了旧金山市

一些新发布的数据集可以提供一个窗口，通过这些数据集可以了解试图解决的问题的复杂程度。公共领域中新发布的数据集可以很好地代表理解计算机视觉的发展以及有待解决的问题的新途径。

CVPR2021提出的一些新数据集汇总

随着人工智能技术的飞速发展与进步，机器人的智能化已经成为现代机器人发展的终极目标。机器人发展的速度在不断提升，应用范围也在不断拓展，例如自动驾驶、移动机器人、操作机器人、信息机器人等。机器人系统是很多复杂算法模块的集合，如障碍物检测、行为决策、智能控制、环境识别等，从零开始开发系统对技术人员要求非常高，而且工作量巨大。通用机器人框架的应用能把这一复杂的开发过程简单化，技术人员可以将更多的精力放在算法模块的迭代上，不需要关心具体配置管理、部署运行、底层通信等功能。而ROS就是一个比较强大、灵活的机器人编程框架。从软件架构的层面来说，它是一个基于消息传递的分布式多进程框架。ROS基于消息机制的通信，使开发者可以根据功能把软件拆分成独立的子模块，子模块通过不断的组合，建立起比较复杂的系统来完成复杂的功能，这些特点能很好地适应机器人操作系统框架的要求。

有了ROS这架车，SLAM之路不再遥远！

提出基于自适应的多分辨率Range Image的动态点移除算法，并使用紧耦合的激光雷达惯导里程计，首先去除移动物体，然后将激光雷达扫描与子图相匹配，构建基于优先移除的面向高动态场景的LIO。

RF-LIO：面向高动态场景的紧耦合LiDAR惯导融合里程计（IROS 2021）

论文地址：https://arxiv.org/pdf/2102.03725v2.pdf

基于图像到UV Map映射的3D手部高保真重建网络（ICCV2021）

单目深度估计一直以来都是计算机视觉领域中的一项非常具有挑战的难题。随着计算机技术、数字图像处理算法和深度学习等技术的发展，常用的单目深度估计算法大概可以分为以下几类：基于线索的和机器学习的传统方法、基于有监督的深度学习方法和基于无监督的深度学习方法。

基于传统方法的单目深度估计

近几年来，随着算力的不断提升和数据的不断增长，深度学习算法有了长足的发展。深度学习算法也越来越多的应用在各个领域中，比如图像处理在安防领域和自动驾驶领域的应用，再比如语音处理和自然语言处理，以及各种各样的推荐算法。如何让深度学习算法在不同的平台上跑的更快，这是深度学习模型部署所要研究的问题。

深度学习模型部署简要介绍

如果要深入学习相机标定方面的知识，可以关注我们工坊推出的课程： 如何学习相机模型与标定？（单目+双目+鱼眼+深度相机）

一文详解相机标定算法原理

代码已开源: https://github.com/JoestarK/LiDAR-Iris

Iris: 比ScanContext更加精确高效的激光回环检测方法（IROS 2020）

文章

问答

视频

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋 

腾讯云代码助手

CODING DevOps

Cloud Studio

SDK中心

API中心

命令行工具

腾讯云开发者社区推出了计算机视觉工坊专栏，为你提供了计算机视觉工坊的相关文章，致力于帮助开发者快速成长与发展。

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐