开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

使用多边形边界框的Tensorflow目标检测API的数据增强

是一种在目标检测任务中提高模型性能的技术。数据增强是通过对训练数据进行一系列变换和扩充，以增加数据的多样性和数量，从而提高模型的泛化能力和鲁棒性。

多边形边界框是一种用于表示目标位置的边界框形状，相比于传统的矩形边界框，它可以更准确地描述目标的形状，特别适用于具有复杂形状的目标。

在Tensorflow目标检测API中，数据增强可以通过以下方式实现：

随机缩放：通过对图像进行随机缩放，可以增加目标在不同尺度下的表现能力，提高模型的鲁棒性。
随机裁剪：通过对图像进行随机裁剪，可以模拟目标在不同位置出现的情况，增加模型对目标位置的鲁棒性。
随机翻转：通过对图像进行随机水平或垂直翻转，可以增加模型对目标在不同方向上的表现能力。
随机旋转：通过对图像进行随机旋转，可以增加模型对目标在不同角度上的表现能力。
随机亮度、对比度和色彩调整：通过对图像进行随机的亮度、对比度和色彩调整，可以增加模型对不同光照条件下的目标的识别能力。
随机噪声添加：通过向图像中添加随机噪声，可以增加模型对噪声环境下的目标的识别能力。
多边形边界框变换：通过对多边形边界框进行随机变换，可以增加模型对目标形状变化的适应能力。

使用多边形边界框的Tensorflow目标检测API的数据增强可以提高模型的性能和鲁棒性，适用于各种目标检测任务，例如人脸识别、物体检测等。

腾讯云提供了一系列与目标检测相关的产品和服务，例如腾讯云图像识别（https://cloud.tencent.com/product/imagerecognition）和腾讯云视频智能分析（https://cloud.tencent.com/product/vca）等，可以帮助开发者快速构建和部署目标检测模型。

相关搜索:Tensorflow 2中数据增强的使用 Tensorflow对象检测API:概率小于50%的输出框 Tensorflow对象检测API的每个边界框的概率分布/置信度分数 Tensorflow对象检测api获取按边界框坐标排序的预测 Tensorflow对象检测模块中的边界框数量 Tensorflow目标检测API在MSCOCO上的训练时间仅使用tensorflow进行训练中的数据增强使用sf创建表示子组边界框的多边形使用tensorflow和inception-v3的边界框使用tensorflow对象检测api的迁移学习

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

论文阅读学习 - ModaNet: A Large-scale Street Fashion Dataset with Polygon Annotations

原文：论文阅读学习 - ModaNet: A Large-scale Street Fashion Dataset with Polygon Annotations - AIUAI

01

如何为计算机视觉任务选择正确的标注类型

机器学习中的注释（Annotation）是标记数据的过程，可以是文本，视频，图像或音频等形式。在计算机视觉任务中，图像注释有助于计算机更好的理解图像，计算机尝试在带注释的数据中学习出适用于新数据识别的相似的规则。

03

5款最佳CV和数据科学标记工具，标记公司、初创企业、个人用户全满足

计算机视觉的数据科学家经常需要快速简单的标记工具用来为PoC或R＆D实验创建数据集，以及确保数据质量，以免影响深度学习算法的性能。本文介绍了5种非常棒的注释工具，如果你发现这些工具无法按预期工作，请尝试在Chrome中运行它们

02

280万样本！谷歌开放史上最大分割掩码数据集，开启新一轮挑战赛

这次，他们在注释集中加入分割掩码（segmentation masks），样本规模达到280万，横跨350个类别。

03

终极指南：构建用于检测汽车损坏的Mask R-CNN模型（附Python演练）

【磐创AI导读】：本文分享了一个mask rcnn实战项目。想要学习更多的机器学习、深度学习知识

03

为什么像素级是图像标注的未来？

在这篇文章中，我将分享一些与我在博士研究期间积累的图像注释相关的想法。具体来说，我将讨论当前最先进的注释方法，它们的趋势和未来方向。最后，我将简要介绍我们正在构建的注释软件，并对我们的公司进行一些简单叙述。

04

为什么像素级是图像标注的未来？

在这篇文章中，我将分享一些与我在博士研究期间积累的图像注释相关的想法。具体来说，我将讨论当前最先进的注释方法，它们的趋势和未来方向。最后，我将简要介绍我们正在构建的注释软件，并对我们的公司进行一些简单叙述。

03

教程 | 先理解Mask R-CNN的工作原理，然后构建颜色填充器应用

选自matterport 作者：Waleed Abdulla 机器之心编译参与：刘晓坤上年 11 月，matterport 开源了 Mask R-CNN 实现，它在 GitHub 已 fork1400 次，被用于很多项目，同时也获得了完善。作者将在本文中解释 Mask R-CNN 的工作原理，并介绍了颜色填充器的应用案例和实现过程。代码（包括作者构建的数据集和已训练的模型）：https://github.com/matterport/Mask_RCNN/tree/master/samples/ball

05

教程 | 先理解Mask R-CNN的工作原理，然后构建颜色填充器应用

选自matterport 作者：Waleed Abdulla 机器之心编译参与：刘晓坤上年 11 月，matterport 开源了 Mask R-CNN 实现，它在 GitHub 已 fork1400 次，被用于很多项目，同时也获得了完善。作者将在本文中解释 Mask R-CNN 的工作原理，并介绍了颜色填充器的应用案例和实现过程。代码（包括作者构建的数据集和已训练的模型）：https://github.com/matterport/Mask_RCNN/tree/master/samples/bal

05

干货 | 平面图像的感知已经基本解决了，那三维数据的呢？

想象一下你正在打造一辆可探测周围环境的自动驾驶车。你要如何让你的车感知行人、骑自行车的人以及其他车辆，以安全行驶呢？你可以给它装上相机，但效果并不是特别好：你面对的是整个 3D 环境，相机拍摄到的只是把它拍扁之后的 2D 图像，然后再尝试从这个 2D 图像中复原你真正需要用到的 3D 信息（比如与车前面的行人、汽车间的距离）。然而，一旦将 3D 环境挤压成 2D 图像，很多对你来说最重要的信息就会丢失，并且将这些信息重新拼凑起来十分困难——即使使用最先进的算法，也容易出错。

05

如何使用MaskRCNN模型进行图像实体分割

目标检测是计算机视觉和模式识别的重要研究方向，主要是确定图像中是否有感兴趣的目标存在，并对其进行探测和精确定位。传统的目标检测流程采用滑动窗口进行区域选择，然后采用 SIFT、HOG 等方法进行特征提取，最后采用 SVM、Adaboost 进行类别判断。但是传统的目标检测方法面临的主要问题有：特征提取鲁棒性差，不能反应光照变化、背景多样等情况；区域选择没有针对性，时间复杂度高，窗口冗余。基于深度学习的目标检测模型有 Faster RCNN，Yolo 和 Yolo2，SSD 等，对图片中的物体进行目标检测的应用示例如下所示：

03

280万分割掩码，谷歌Open Images数据集再更新

2016 年，谷歌推出了图像数据集 Open Images，合作发布了约 900 万张标注图像，覆盖数千个物体类别。之后该数据集有过几次更新，最后一次更新是 2018 年的 Open Images V4。该版本共包括 600 个物体类别及 1540 万个边界框，这使其成为目前具备物体位置标注的最大数据库。此外，Open Images V4 还为 57 个类提供了 375000 个视觉关系标注。

03

PostGIS特性

比如，Union操作符融合多边形之间的边界。两个交迭的多边形通过Union运算就会形成一个新的多边形，这个新的多边形的边界为两个多边形中最大边界。

03

CVPR 2019 | 文本检测算法PSENet解读与开源实现

PSENet文本检测算法来自论文《Shape Robust Text Detection with Progressive Scale Expansion Network》，2018年7月发表于arxiv，已被CVPR 2019 接收。

01

CASIA: 支持检测、分割、关键点的标注工具

CasiaLabeler是一款非常轻量的标注软件，支持win10和ubuntu18平台。主要适用于目标检测和实例分割等场景。可用于Faster RCNN, Mask RCNN, Yolo系列, SSD系列, Centernet系列等。

02

爱可可老师24小时热门分享(2018.11.29)

https://www.monash.edu/rlo/graduate-research-writing/write-the-thesis/introduction-literature-reviews

02

OpenCV 轮廓检测

在计算机视觉中，轮廓检测是另一个比较重要的任务。它包含的操作有计算矩形边界、圆形边界、多边形边界等等。

02

前沿 | 超越像素平面：聚焦3D深度学习的现在和未来

想象一下，如果你正在建造一辆自动驾驶汽车，它需要了解周围的环境。为了安全行驶，你的汽车该如何感知行人、骑车的人以及周围其它的车辆呢？你可能会想到用一个摄像头来满足这些需求，但实际上，这种做法似乎效果并不好：你面对的是一个三维的环境，相机拍摄会使你把它「压缩」成二维的图像，但最后你需要将二维图像恢复成真正关心的三维图像（比如你前方的行人或车辆与你的距离）。在相机将周围的三维场景压缩成二维图像的过程中，你会丢掉很多最重要的信息。试图恢复这些信息是很困难的，即使我们使用最先进的算法也很容易出错。

02

MIT课程全面解读2019深度学习最前沿 | 附视频+PPT

人类公元纪年2019年伊始，深度学习技术也同样处在一个新的“开端”，宜review、宜展望。

02

换个dataloader函数， COCO提升3mAP ，上海交大MVIG团队提出InstaBoost

目前，研究团队已将代码及训练好的模型全部开源，包括 Res50, Res101 base 的 Mask R-CNN, Cascade Mask R-CNN, SSD 等，未来还将有更多模型开源，如 yolact 等。

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭