从Coco注释json到语义分割图像，比如pytorch中的VOC's .png - 腾讯云开发者社区

所有的标注图片都有Detection需要的label，但只有部分数据有Segmentation Label。 VOC2007中包含9963张标注过的图片，由train/val/test三部分组成，共标注出24,640个物体。 VOC2007的test数据label已经公布，之后的没有公布（只有图片，没有label）。对于检测任务，VOC2012的trainval/test包含08-11年的所有对应图片。 trainval有11540张图片共27450个物体。对于分割任务， VOC2012的trainval包含07-11年的所有对应图片， test只包含08-11。trainval有 2913张图片共6929个物体。

您找到你想要的搜索结果了吗？

是的

没有找到

PyTorch版：集成注意力和MobileNet的YOLOv4

PyTorch版YOLOv4更新了，不仅适用于自定义数据集，还集成了注意力和MobileNet

从今年4月YOLOv4发布后，对于这个目标检测框架，问的最多的问题或许就是：「有没有同学复现YOLOv4的，可以交流一下么」。由于原版YOLO使用C语言进行编程，光凭这一点就让不少同学望而却步。网上有很多基于TF/Keras和Caffe等的复现版本，但不少项目只给了代码，并没有给出模型在COCO、PASCAL VOC数据集上的训练结果。

汇总 | 深度学习中图像语义分割基准数据集详解

图像语义分割是计算机视觉最经典的任务之一，早期的图像分割主要有以下几种实现方法。

语义分割如何做标注_语义分割转实例分割

在进行Segmentation 训练之前需要准备训练集和验证集，本文将要来介绍如何使用LabelMe进行标记。LabelMe 是个可以绘制多边形、矩形、圆形、直线、点的一套标记工具，可用于分类、目标检测、语义分割、实例分割任务上的数据标注。

[计算机视觉论文速递] 2018-07-06 目标检测CVPR专场

这篇文章有2篇论文速递，都是目标检测方向，一篇是RefineNet，其是SSD算法、RPN网络和FPN算法的结合，另一篇是DES，其是基于SSD网络进行了改进。注意，两篇都是CVPR 2018文章。

博客 | AI 从业者都应该知道的实验数据集

少了数据，我们的机器学习和深度学习模型什么也干不了。这么说吧，那些创建了数据集、让我们可以训练模型的人，都是我们的英雄，虽然这些人常常并没有得到足够的感谢。让人庆幸的是，那批最有价值的数据集后来成了「学术基准线」——被研究人员广泛引用，尤其在算法变化的对比上；不少名字则成为圈内外都耳熟能详的名称，如 MNIST、CIFAR 10 以及 Imagenet 等。

ApolloScape Scene Parsing数据集入门

本文介绍了ApolloScape Scene Parsing数据集，包括该数据集的背景、数据集的组织结构以及如何使用Python代码来处理和分析该数据集。

干货 | AI 从业者都应该知道的实验数据集

AI 科技评论按：数据集对于深度学习模型的重要性不言而喻，然而根据性质、类型、领域的不同，数据集往往散落在不同的资源平台里，急需人们做出整理。 fast.ai 近期将这些重要的数据集汇总到了一篇文章里，雷锋网 AI 科技评论把文章编译如下。

零样本目标检测：鲁棒的区域特征合成器用于目标检测（附论文下载）

论文地址：https://arxiv.org/pdf/2201.00103.pdf

从FPN到Mask R-CNN，一文告诉你Facebook的计算机视觉有多强

翻译 | 人工智能头条（ID：AI_Thinker）参与 | 林椿眄本文概述了 Facebook AI Research（FAIR）近期在计算机视觉领域的研究进展，内容主要包括基础结构模块的创新、卷积神经网络、one shot 检测模块等，以及一些在实例分割方面的创新方法，并介绍了弱半监督学习方式下实例分割的研究进展。下面将逐一介绍，文中的一些引用可在文末的参考文献中找到。 ▌Feature Pyramid Networks（特征金字塔网络）首先，我们要介绍的是著名的特征金字塔网络[1](这是发表在

做语义分割不用任何像素标签，UCSD、英伟达在ViT中加入分组模块，入选CVPR2022

机器之心报道机器之心编辑部生成效果的确很惊艳。视觉场景是由有语义意义的像素组构成。在深度学习的概念出现之前，业界就已经使用经典的视觉理解方法对像素分组和识别进行深入研究。自下而上分组的思想是：首先将像素组织成候选组，然后用识别算法模块处理每个分组。这种思路已经成功应用于超像素图像分割、以及目标检测和语义分割的区域构建。除了自下而上的推理，识别过程中自上而下的反馈信号，能够更好地完成视觉分组。随着深度学习时代的到来，显式分组和识别的思想，在端到端的训练系统中已经不再那么泾渭分明，而是更紧密地耦合在一起

综述二 | 最全的目标检测大综述（附下载链接）

我们将从多个方面回顾对象检测的历史，包括里程碑检测器、目标检测数据集、指标和关键技术的发展。

常用的20个计算机视觉开源数据集总结

计算机视觉是人工智能的一个领域，它训练计算机解释和理解视觉世界。利用来自相机和视频的字图像以及深度学习模型，机器可以准确地识别和分类物体，然后对它们“看到的”做出反应。

【技术综述】多标签图像分类综述

图像分类作为计算机视觉领域的基础任务，经过大量的研究与试验，已经取得了傲人的成绩。然而，现有的分类任务大多是以单标签分类展开研究的。当图片中有多个标签时，又该如何进行分类呢？本篇综述将带领大家了解多标签图像分类这一方向，了解更具难度的图像分类。

caffe详解之数据层

数字手写体识别数据集，常用来作为Deep Learning入门的基础数据集。它有60000个训练样本集和10000个测试样本集，每个样本图像的宽高为28×28。此数据集是以二进制存储的，不能直接以图像格式查看，不过很容易找到将其转换成图像格式的工具。数据集大小：~12MB 下载地址：http://yann.lecun.com/exdb/mnist/index.html

深度学习图像分割(二)——如何制作自己的PASCAL-VOC2012数据集

在之前的那篇文章中：深度学习图像分割（一）——PASCAL-VOC2012数据集（vocdevkit、Vocbenchmark_release）详细介绍我们大概了解了VOC2012图像分割数据集的基本格式，现在我们来讨论一下我们具体需要什么样的数据格式和我们如何去制作自己的数据集。

业界 | 一文概览2017年Facebook AI Research的计算机视觉研究进展

选自skrish13 作者：Krish 参与：路雪、刘晓坤本文概述了 2017年Facebook AI 研究院（FAIR）在计算机视觉上的研究进展，包括基础构建模块创新、CNN、one shot 目标检测模块等，然后介绍实例分割方面的创新，最后介绍用弱半监督方式来扩展实例分割。特征金字塔网络（FPN）首先我们先来介绍著名的特征金字塔网络 [1]（发表在 CVPR 2017 上）。FPN 论文非常棒，要知道，构建一个可在多项任务、子主题和应用领域中使用的基线模型并不简单。FPN 是通用特征提取网络（如

MMDetection全流程实战指南：手把手带你构建目标检测模型

MMDetection 是一个由 OpenMMLab 开发的开源目标检测工具箱，基于 PyTorch 实现。该库提供了丰富的目标检测算法，包括经典的 Faster R-CNN、YOLO 和最新的一些研究成果，非常方便于研究者和工程师进行模型的训练和推理。具有高度模块化和可扩展性的设计，使得用户可以非常灵活地进行个性化配置和二次开发。这一工具箱已经成为目标检测领域的事实标准之一，被广泛应用于学术研究和产业界。

业界 | 一文概览2017年Facebook AI Research的计算机视觉研究进展

选自skrish13 作者：Krish 机器之心编译参与：路雪、刘晓坤本文概述了 2017年Facebook AI 研究院（FAIR）在计算机视觉上的研究进展，包括基础构建模块创新、CNN、one shot 目标检测模块等，然后介绍实例分割方面的创新，最后介绍用弱半监督方式来扩展实例分割。特征金字塔网络（FPN）首先我们先来介绍著名的特征金字塔网络 [1]（发表在 CVPR 2017 上）。FPN 论文非常棒，要知道，构建一个可在多项任务、子主题和应用领域中使用的基线模型并不简单。FPN 是通用特

深度学习开源图片数据库汇总

数据的准备工作是训练模型前的必要工作，显然这也是非常耗时的，所以在入门阶段我们完全可以用现有的开源图片库快速完成前期的准备工作：

2022年10 款最佳计算机视觉开源数据标注工具

一款好用的数据标注工具对于创建高质量的AI训练数据集至关重要，您可以通过高效的标注工具提高数据标注速度，让工作流变得更为有序。随着计算机视觉技术的发展，我们可以在开源社区看到越来越多的图像标注工具，任何人都可以免费使用并从强大的功能中获益，我们在下文中列举了10款我们认为优秀的开源标注工具！

20年的目标检测大综述（章节2）

今天我们接着上次综述章节1继续来大家来说说，本次主要说说20年内的目标检测，感谢大家的关注与支持。

深度学习图语义分割的综述

图像分割是计算机视觉和机器学习领域发展最快的领域之一，包括分类、分类与定位、目标检测、语义分割、实例分割和Panoptic分割。

2020年，那些「引爆」了ML社区的热门论文、库和基准

不平凡的 2020 年终于过去了！这一年，由于新冠肺炎疫情的影响，CVPR、ICLR、NeurIPS 等各大学术会议都改为线上举行。但是，机器学习社区的研究者和开发者没有停下脚步，依然贡献了很多重大的研究发现。

视觉任务微调王道 | 国科大联合阿里巴巴提出Mona，让Adapter成为你的All Need

[49]中提到的预训练和微调范式可以在同模态任务之间实现惊人的迁移学习，这在CV和NLP等领域已经得到证明。预训练模型通常由资源丰富且经验丰富的团队使用大量干净的数据进行训练。

MS COCO数据集详解

计算机视觉的一个主要任务是理解视觉场景，要理解视觉场景就要涉及到一系列主要的视觉任务包括对象检测与识别、图像语义描述、场景分割、场景属性与特征描述等。ImageNet与Pascal VOC数据集主要关注图像分类、对象检测与图像语义分割，而COCO主要关注图像场景与实例分割。

有人一周内清理了PASCAL数据集中的17120张图像，将mAP提高了13%

点击上方↑↑↑“OpenCV学堂”关注我来源：公众号机器之心授权干净的数据对于你的 AI 模型的表现有多重要？有研究称，他们使用一种技术在一周内清理了 PASCAL VOC 2012 数据集中的 17120 张图像，并发现 PASCAL 中 6.5% 的图像有不同的错误（缺失标签、类标签错误等）。他们在创纪录的时间内修复了这些错误，并将模型的性能提高了 13% 的 mAP。通常情况下，模型性能较差可能是由于训练数据质量不高引起的。即使在 2022 年，由于数据是公司最重要的资产之一，开发人员也经常

花一周清理PASCAL数据集的17120图像，将mAP提高13%

有研究称，他们使用一种技术在一周内清理了 PASCAL VOC 2012 数据集中的 17120 张图像，并发现 PASCAL 中 6.5% 的图像有不同的错误（缺失标签、类标签错误等）。他们在创纪录的时间内修复了这些错误，并将模型的性能提高了 13% 的 mAP。

李飞飞等人提出Auto-DeepLab：自动搜索图像语义分割架构

近日，斯坦福大学李飞飞组的研究者提出了 Auto-DeepLab，其在图像语义分割问题上超越了很多业内最佳模型，甚至可以在未经过预训练的情况下达到预训练模型的表现。Auto-DeepLab 开发出与分层架构搜索空间完全匹配的离散架构的连续松弛，显著提高架构搜索的效率，降低算力需求。

图像分割 2020 最新进展

url : https://towardsdatascience.com/image-segmentation-in-2020-756b77fa88fc

【他山之石】三个优秀的PyTorch实现语义分割框架

使用的VOC数据集链接开放在文章中，预训练模型已上传Github，环境我使用Colab pro，大家下载模型做预测即可。

何恺明团队推出Mask^X R-CNN，将实例分割扩展到3000类

翻译 | AI科技大本营（ID：rgznai100）参与 | shawn，刘畅今年10月，何恺明的论文“Mask R-CNN”摘下ICCV 2017的最佳论文奖（Best Paper Award），如今，何恺明团队在Mask R-CNN的基础上更近一步，推出了（以下称Mask^X R-CNN）。这篇论文的第一作者是伯克利大学的在读博士生胡戎航（清华大学毕业），标题非常霸气，叫是“Learning to Segment Every Thing”。从标题上可以看出，这是一篇在实例分割问题(

011

有人一周内清理了PASCAL数据集中的17120张图像，将mAP提高了13%

选自hasty.ai 作者：Vladimir Lyashenko 机器之心编译编辑：陈萍干净的数据对于你的 AI 模型的表现有多重要？有研究称，他们使用一种技术在一周内清理了 PASCAL VOC 2012 数据集中的 17120 张图像，并发现 PASCAL 中 6.5% 的图像有不同的错误（缺失标签、类标签错误等）。他们在创纪录的时间内修复了这些错误，并将模型的性能提高了 13% 的 mAP。通常情况下，模型性能较差可能是由于训练数据质量不高引起的。即使在 2022 年，由于数据是公司最重要的资

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐