开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

为了更好地分类，我应该保持图像的原始大小吗？

为了更好地分类，保持图像的原始大小并不是必需的，因为原始大小的图像可能会导致计算和存储开销过大。通常情况下，对图像进行预处理和调整大小可以更好地满足分类的需求。

在图像分类任务中，常见的图像预处理方法包括：

图像缩放：将图像调整为固定大小，这有助于确保输入数据的一致性，并降低计算和存储开销。常用的图像缩放方法有等比例缩放和裁剪缩放等。
图像灰度化或彩色处理：根据具体任务要求，将图像转化为灰度图或者彩色图，以适应不同的算法模型和特征提取方法。
图像增强：对图像进行增强处理，例如调整对比度、亮度、饱和度等，以提升图像质量和特征可见性。
数据增强：通过旋转、翻转、剪裁、添加噪声等方法生成更多的训练样本，增加数据多样性，提升模型的泛化能力。

对于不同的应用场景和需求，适当的图像预处理方法可能会有所不同。具体可参考腾讯云的图像处理服务，例如腾讯云智能图像处理（Image Processing）产品，提供了丰富的图像处理功能，包括缩放、裁剪、滤镜、增强等功能，可根据具体需求选择合适的处理方法。

产品链接地址：https://cloud.tencent.com/product/imgpro

相关搜索:Tensorflow我应该从图像中裁剪对象以获得更好的准确性吗？在通过网络发送图像之前，我应该调整相机/照片库中的图像大小吗？当我调整浏览器窗口的大小时，我的图像会在它们应该保持在一起的时候移动我应该更好地使用Laravel 5.7中的session()或collect() helper函数吗？备案域名购买交易平台代备案域名购买如何购买域名和ip 域名注册购买好后怎么办怎么查到域名购买人公司内部邮件域名购买

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

BraTS18——多模态MR图像脑肿瘤分割挑战赛续2

今天将继续分享使用多分类函数来训练分割网络。为了方便大家学习理解整个分割流程，我将整个流程步骤进行了整理，并给出每个步骤的结果，希望对大家有所帮助。

02

别魔改网络了，Google研究员：模型精度不高，是因为你的Resize方法不够好！

尽管近年来卷积神经网络很大地促进了计算机视觉的发展，但一个重要方面很少被关注：图像大小对被训练的任务的准确性的影响。在本文介绍了一篇谷歌在ICCV2021的工作，作者提出了一个可学习的调整器模型（resizer model）来提高模型的性能。

03

别魔改网络了，Google研究员：模型精度不高，是因为你的Resize方法不够好！

尽管近年来卷积神经网络很大地促进了计算机视觉的发展，但一个重要方面很少被关注：图像大小对被训练的任务的准确性的影响。在本文介绍了一篇谷歌在ICCV2021的工作，作者提出了一个可学习的调整器模型（resizer model）来提高模型的性能。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

01

纹理分析以及结合深度学习来提升纹理分类效果

来源：AI 公园本文约6400字，建议阅读10+分钟本文为你介绍纹理分析及各种分析方法，并结合深度学习提升纹理分类。人工智能的一个独特应用领域是帮助验证和评估材料和产品的质量。在IBM，我们开发了创新技术，利用本地移动设备，专业的微型传感器技术，和AI，提供实时、解决方案，利用智能手机技术，来代替易于出错的视觉检查设备和实验室里昂贵的设备。在开发质量和可靠性检查的人工智能能力的同时，产品和材料的图像需要是高清晰度的或者是微观尺度的，因此，设计能够同时代表采样图像的局部和全局独特性的特征变得极为重要

02

论文推荐：基于GE-MRI的多任务学习

该论文是18年发布的，提出了一种基于Deep U-Net的多任务学习框架，用于GE-MRI左心房分割，该框架同时执行心房分割和消融前后分类。虽然论文已经很老了，但是改论文提出的多任务和后处理方法到现在还是可以参考的。

03

基于图像分类的动态图像增强

论文链接：http://openaccess.thecvf.com/content_cvpr_2018/papers/Sharma_Classification-Driven_Dynamic_Image_CVPR_2018_paper.pdf

03

续何恺明的MAE后！MSRA提出掩码图像建模新框架：SimMIM

本文提出一个用于掩码图像建模(masked image modeling)的简单框架SmiMIM。作者简化了最近提出的方法，而无需任何特殊设计，如利用离散VAE或聚类进行块级别的掩码和分词。为了让掩码图像建模任务能学到更好的表示，作者表示该框架中每个组件的简单设计已经能显示出其优异的学习能力：

02

计算机视觉怎么给图像分类？KNN、SVM、BP神经网络、CNN、迁移学习供你选（附开源代码）

原文：Medium 作者：Shiyu Mou 来源：机器人圈本文长度为4600字，建议阅读6分钟本文为你介绍图像分类的5种技术，总结并归纳算法、实现方式，并进行实验验证。图像分类问题就是从固定的一组分类中，给输入图像分配标签的任务。这是计算机视觉的核心问题之一，尽管它看似简单，却在实际生活中有着各种各样的应用。传统方式：功能描述和检测。也许这种方法对于一些样本任务来说是比较好用的，但实际情况却要复杂得多。因此，我们将使用机器学习来为每个类别提供许多示例，然后开发学习算法来查看这些示例

《AFTrans》来自ViT的免费午餐！北大&阿里提出用于细粒度视觉识别的自适应注意多尺度融合Transformer

本文分享论文『A free lunch from ViT- Adaptive Attention Multi-scale Fusion Transformer for Fine-grained Visual Recognition』，被称为来自 ViT 的免费午餐！由北大&阿里提出用于细粒度视觉识别的自适应注意多尺度融合Transformer：《AFTrans》。

01

使用NTS理解细粒度图像分类

自从2012年的ILSVRC竞赛Alexnet赢得冠军以来，计算机视觉已经非常出色了。这是人们在开始研究这项快速发展的技术时经常会遇到的说法。这个博客是为了理解细粒度视觉分类(FGVC)这一具有挑战性的问题，下面的文章将对此进行详细描述。

02

一种改进的MobileNet- SSD算法用于车身漆面缺陷自动检测

论文地址：https://link.springer.com/content/pdf/10.1007/s11042-020-09152-6.pdf

03

CTPelvicBone——骨盆级联分割网络完整实现

今天将分享骨盆级联的二值分割的完整实现过程，为了方便大家学习理解整个流程，将整个流程步骤进行了整理，并给出详细的步骤结果。感兴趣的朋友赶紧动手试一试吧。

06

MAE同期工作！MSRA新作SimMIM收录CVPR 2022！高达87.1%准确率！掩码图像建模新框架

Amusi 注意到去年11月份何恺明一作的MAE收录到CVPR 2022 Oral！详见：何恺明一作MAE收录CVPR 2022 Oral！高达87.8%准确率！自监督领域新代表作，也刚刚注意到：同年11月份MSRA的SimMIM工作也成功收录到了CVPR 2022。目前MIM 方向越来越火热，大家可以关注一波。

01

双流网络介绍

双流CNN通过效仿人体视觉过程，对视频信息理解，在处理视频图像中的环境空间信息的基础上，对视频帧序列中的时序信息进行理解，为了更好地对这些信息进行理解，双流卷积神经网络将异常行为分类任务分为两个不同的部分。单独的视频单帧作为表述空间信息的载体，其中包含环境、视频中的物体等空间信息，称为空间信息网络；另外，光流信息作为时序信息的载体输入到另外一个卷积神经网络中，用来理解动作的动态特征，称为时间信息网络，为了获得比较好的异常行为分类效果，我们选用卷积神经网络对获得的数据样本进行特征提取和分类，我们将得到的单帧彩色图像与单帧光流图像以及叠加后的光流图像作为网络输入，分别对图像进行分类后，再对不同模型得到的结果进行融合。双流卷积神经网络结构如下图所示：

02

BraTS18——多模态MR图像脑肿瘤分割挑战赛续

前面已经分享过对多模态MR图像脑肿瘤进行分割处理的例子。今天将继续分享使用多分类Focalloss函数来训练分割网络。为了方便大家学习理解整个分割流程，我将整个流程步骤进行了整理，并给出每个步骤的结果，希望对大家有所帮助。

02

更快的iOS和macOS神经网络

因为神经网络本质上执行大量计算，所以它们在移动设备上尽可能高效地运行是很重要的。一个高效的模型能够在实时视频上获得实时结果 - 无需耗尽电池或使手机变热，就可以在其上煎鸡蛋。

02

理解如何处理计算机视觉和深度学习中的图像数据

在过去几年从事多个计算机视觉和深度学习项目之后，我在这个博客中收集了关于如何处理图像数据的想法。对数据进行预处理基本上要比直接将其输入深度学习模型更好。有时，甚至可能不需要深度学习模型，经过一些处理后一个简单的分类器可能就足够了。

01

Transformer-Unet | 如何用Transformer一步一步改进 Unet？

医学图像分割在生物医学图像分析中占有重要地位，也引起了人们的广泛关注。良好的分割结果可以帮助医生进行判断，进一步改善患者体验。

02

人脸专集1 | 级联卷积神经网络用于人脸检测

从今天开始，温度开始回升，我们科研的热情也开始高涨起来，接下来我们会开始一段目标检测识别（人脸）的学习，希望大家持续关注！

03

MIT 6.S094· 深度学习 | 学霸的课程笔记，我们都替你整理好了

计算机视觉，到目前为止都是深度学习。并且大部分成功理解图片含义的案例都是使用神经网络。

02

MIT 6.S094· 深度学习 | 学霸的课程笔记，我们都替你整理好了

计算机视觉，到目前为止都是深度学习。并且大部分成功理解图片含义的案例都是使用神经网络。

05

数据增强方法 | 基于随机图像裁剪和修补的方式（文末源码共享）

深度卷积神经网络(CNNs)在图像处理中取得了显著的效果。然而，他们的高表达能力有过度适应的风险。因此，提出了在丰富数据集的同时防止过度拟合的数据增强技术。最新的CNN体系结构具有更多的参数，使得传统的数据增强技术显得不足。

02

目标分割技术-语义分割总览

目标分割是计算机视觉领域的一个重要任务，旨在从图像或视频中准确地分割出特定的目标或对象。与目标检测关注物体位置和边界框不同，目标分割要求精确地识别并标记目标的每个像素，实现对目标的像素级别理解。

04

手把手教你使用图像处理利器OpenCV

在本文中，将学习如何使用Python语言进行图像处理，我们不会局限于一个单独的库或框架，然而，有一个库的使用率将会是最高的，那就是OpenCV。我们一开始会讨论一些图像处理，然后继续探讨不同的应用/场景，也就是图像处理的用武之地。开始吧!

01

来聊聊可形变卷积及其应用

使用可变形卷积，可以提升Faster R-CNN和R-FCN在物体检测和分割上的性能。只要增加很少的计算量，就可以得到性能的提升。

03

【个人整理】faster-RCNN的核心构件——RPN区域推荐网络（二）

前言：faster-RCNN是区域卷积神经网络（RCNN系列）的第三篇文章，是为了解决select search方法找寻region proposal速度太慢的问题而提出来的，整个faster-RCNN的大致框架依然是沿袭了fast-RCNN的基本能结构，只不过在region proposal的产生上面应用了专门的技术手段——区域推荐网络（region proposal network，即RPN），这是整个faster最难以理解的地方，本文也将以他为重点进行说明。鉴于篇幅较长，本次系列文章将分为3篇来说明：

05

CS231n：8 迁移学习

实际上，很少的人会训练整个卷积神经网络（使用随机的初始化），因为相对来说，很少有足够大的数据集可以用于训练。作为代替，常见的方式是在一个很大的数据集中预训练一个卷积神经网络（比如ImageNet，120万张1000类别图片），然后或者将这个训练后的网络参数作为初始化参数，或者直接作为一个特质提取器用于所关注的任务。三种常见的迁移学习类型如下所示：

02

使用OpenCV在Python中进行图像处理

在本教程中，我们将学习如何使用Python语言执行图像处理。我们不会局限于单个库或框架；但是，我们将最常使用的是Open CV库。我们将先讨论一些图像处理，然后再继续介绍可以方便使用图像处理的不同应用程序/场景。

02

实例分割总结 Instance Segmentation Summary[通俗易懂]

实例分割：机器自动从图像中用目标检测方法框出不同实例，再用语义分割方法在不同实例区域内进行逐像素标记

01

盘点 | 对比图像分类五大方法：KNN、SVM、BPNN、CNN和迁移学习

选自Medium 机器之心编译参与：蒋思源、黄小天、吴攀图像分类是人工智能领域的基本研究主题之一，研究者也已经开发了大量用于图像分类的算法。近日，Shiyu Mou 在 Medium 上发表了一篇文章，对五种用于图像分类的方法（KNN、SVM、BP 神经网络、CNN 和迁移学习）进行了实验比较，该研究的相关数据集和代码也已经被发布在了 GitHub 上。项目地址：https://github.com/Fdevmsy/Image_Classification_with_5_methods 图像分类，顾名

深度 | 像玩乐高一样拆解Faster R-CNN：详解目标检测的实现过程

选自tryolabs 作者：Matt Simon 机器之心编译本文详细解释了 Faster R-CNN 的网络架构和工作流，一步步带领读者理解目标检测的工作原理，作者本人也提供了 Luminoth 实现，供大家参考。 Luminoth 实现：https://github.com/tryolabs/luminoth/tree/master/luminoth/models/fasterrcnn 在阅读本文之前，若想了解 R-CNN 网络家族的发展，可以参看机器之心的文章：深度 | 用于图像分割的卷积神

深度 | 像玩乐高一样拆解Faster R-CNN：详解目标检测的实现过程

作者：Matt Simon 机器之心编译本文详细解释了 Faster R-CNN 的网络架构和工作流，一步步带领读者理解目标检测的工作原理，作者本人也提供了 Luminoth 实现，供大家参考。 Luminoth 实现：https://github.com/tryolabs/luminoth/tree/master/luminoth/models/fasterrcnn 在阅读本文之前，若想了解 R-CNN 网络家族的发展，可以参看机器之心的文章：深度 | 用于图像分割的卷积神经网络：从R-CNN到

08

【技术综述】计算机审美，学的怎么样了？

究竟什么是图像美学质量呢？牛津高阶英语词典将美学定义为：“concerned with beauty and art and the understanding of beautiful things, and made in an artistic way and beautiful to look at.”视觉美学质量是视觉感知美的一种度量。图像的视觉美学质量衡量了在人类眼中一幅图像的视觉吸引力。由于视觉美学是一个主观的属性，往往会涉及情感和个人品味，这使得自动评估图像美学质量是一项非常主观的任务。然而，人们往往会达成一种共识，即一些图像在视觉上比其他图像更有吸引力，这是新兴研究领域——可计算美学的原理之一。计算美学探索如何用可计算技术来预测人类对视觉刺激产生的情绪反应，使计算机模仿人类的审美过程，从而用可计算方法来自动预测图像的美学质量。

02

文本生成图像这么火，你需要了解这些技术的演变

来源：机器之心本文约8220字，建议阅读10+分钟本文梳理了较为优秀的多模态文本图像模型。目前多模态任务成为行业热点，本文梳理了较为优秀的多模态文本图像模型：DALL·E、CLIP、GLIDE、DALL·E 2 (unCLIP)的模型框架、优缺点，及其迭代关系。 OpenAI 最近发布了 DALL·E 2 系统，在 AI 界引发了「地震」，该系统能够根据文本描述创建图像。这是 DALL·E 系统的第二个版本，第一个版本是在近一年前发布的。然而，在 OpenAI 内部，DALL·E 2 背后的模型被称为

02

超硬核！万字梳理文本生成图像！

点击机器学习算法与Python学习，选择加星标精彩内容不迷路选自 Intento，作者：Grigory Sapunov 机器之心编译目前多模态任务成为行业热点，本文梳理了较为优秀的多模态文本图像模型：DALL·E、CLIP、GLIDE、DALL·E 2 (unCLIP)的模型框架、优缺点，及其迭代关系。 OpenAI 最近发布了 DALL·E 2 系统，在 AI 界引发了「地震」，该系统能够根据文本描述创建图像。这是 DALL·E 系统的第二个版本，第一个版本是在近一年前发布的。然而，在 O

02

文本生成图像这么火，你需要了解这些技术的演变

选自 Intento 作者：Grigory Sapunov 机器之心编译机器之心编辑部目前多模态任务成为行业热点，本文梳理了较为优秀的多模态文本图像模型：DALL·E、CLIP、GLIDE、DALL·E 2 (unCLIP)的模型框架、优缺点，及其迭代关系。 OpenAI 最近发布了 DALL·E 2 系统，在 AI 界引发了「地震」，该系统能够根据文本描述创建图像。这是 DALL·E 系统的第二个版本，第一个版本是在近一年前发布的。然而，在 OpenAI 内部，DALL·E 2 背后的模型被称为 u

04

NanoNets：数据有限如何应用深度学习？

我觉得人工智能就像是去建造一艘火箭飞船。你需要一个巨大的引擎和许多燃料。如果你有了一个大引擎，但燃料不够，那么肯定不能把火箭送上轨道；如果你有一个小引擎，但燃料充足，那么说不定根本就无法成功起飞。所以，构建火箭船，你必须要一个巨大的引擎和许多燃料。深度学习（创建人工智能的关键流程之一）也是同样的道理，火箭引擎就是深度学习模型，而燃料就是海量数据，这样我们的算法才能应用上。——吴恩达使用深度学习解决问题的一个常见障碍是训练模型所需的数据量。对大数据的需求是因为模型中有大量参数需要学习。以下是几个例子展

06

基于OpenCV的数字识别系统

2012年iOS应用商店中发布了一个名为FuelMate的Gas跟踪应用。小伙伴们可以使用该应用程序跟踪汽油行驶里程，以及有一些有趣的功能，例如Apple Watch应用程序、vin.li集成以及基于趋势mpg的视觉效果。

02

亚马逊专家揭秘：如何建立自动检测乳腺癌的深度学习模型

安妮编译自 Insight Data Science 量子位出品 | 公众号 QbitAI 本文作者Sheng Weng，现亚马逊Alexa项目组数据专家，莱斯大学应用物理专业已毕业博士生，主要研究用超快激光转化生物光子学成像及显微镜检查。前不久，他参加了Insight Data Science的青年计划——这是一个为期7周的博士后团体的交流计划，是学术界与企业界的医学数据研究交流桥梁。参加本项目期间，Sheng Weng为为医疗检测公司iSono创建了用深度学习自动检测乳腺癌的新模型，并将研究原理发布

08

详细解读PVT-v2 | 教你如何提升金字塔Transformer的性能？（附论文下载）

计算机视觉中的Transformer最近取得了令人鼓舞的进展。在这项工作中，作者通过添加3个改进设计来改进原始金字塔视觉Transformer（PVTv1），其中包括：

04

AISP之突破黑暗 | 低照度图像增强(LLIE)

低照度图像增强只是对在低环境光环境下拍摄的图像进行增强，以提高图像视觉清晰度，如下图所示：

02

DSSD : Deconvolutional Single Shot Detector

本文的主要贡献是将附加上下文引入到最先进的一般目标检测中。为了实现这一点，我们首先结合了一个最先进的分类器和一个快速检测框架。然后，我们使用反褶积层来增加SSD+Residual-101，以在目标检测中引入额外的大规模上下文，并提高准确性，特别是对于小目标，我们将生成的系统DSSD称为反卷积单阶段检测器。虽然这两个贡献很容易在高层进行描述，但是一个简单的实现是不会成功的。相反，我们展示了仔细添加额外的学习转换阶段，特别是反褶积中的前馈连接模块和一个新的输出模块，使这种新方法成为可能，并为进一步的检测研究形成了一个潜在的前进道路。结果表明，PASCAL VOC和COCO 检测。我们的513×513输入的DSSD在VOC2007测试中实现了81.5%的mAP，在VOC 2012测试中实现了80.0%的mAP，在COCO上实现了33.2%的mAP，在每个数据集上都优于目前最先进的R-FCN方法。

03

YOLO v4：物体检测的最佳速度和精度

您只需看一次（YOLO）是快速、准确的单阶段目标检测器。最近发布的YOLO v4与其他目标检测器相比，显示出非常好的结果。

03

基于全卷积神经网络的图像分割方法详解（二）

前段时间一直忙于用深度学习做医学图像分割，采用的方法是FCN，也就是全卷积神经网络。全卷积神经网络是基于卷积神经网络的改进，使得输入和输出的尺寸一致，并且对每个像素点进行分类，达到图像分割的目的。下图是全卷积神经网络的流程图。其中第一行是提取特征步骤，然后2X conv7和4X conv7分别表示对conv7的输出进行2倍和4倍上采样，也就是反卷积操作，最后将特征图变为输入大小的尺寸，就实现了对于每个像素的分类，也就是图像分割。

01

YOLO—实时对象检测的新视角

近几年，在深入学习的帮助下, 目标检测领域取得了巨大的进步。对象检测是标识图像中的对象并在其周围绘制边界框的任务, 也就是定位它们。在计算机视觉由于其众多的应用从自动驾驶汽车到安全和跟踪是一个非常重要的问题。以前的对象检测方法通常是让管道按序分段。这会导致每一段完成的任务和最终目标之间的脱节, 最终的目标是在一个图像的对象周围绘制一个紧密的边界框。一个充分利用在联合的方式中侦测错误的终端框架将是一个更好的解决方案，不仅是为了更好地训练模型, 还要提高检测速度。这就需要YOLO发挥作用。Varun Agr

05

ResNet50 文艺复兴 | ViT 原作者让 ResNet50 精度达到82.8%，完美起飞！！！

大型视觉模型目前主导着计算机视觉的许多领域。最新的图像分类、目标检测或语义分割模型都将模型的大小推到现代硬件允许的极限。尽管它们的性能令人印象深刻，但由于计算成本高，这些模型很少在实践中使用。

03

使用 Grad-CAM 可视化 ViT 的输出，揭示视觉 Transformer 的工作原理

Vision Transformer (ViT) 作为现在 CV 中的主流 backbone，它可以在图像分类任务上达到与卷积神经网络（CNN）相媲美甚至超越的性能。ViT 的核心思想是将输入图像划分为多个小块，然后将每个小块作为一个 token 输入到 Transformer 的编码器中，最终得到一个全局的类别 token 作为分类结果。

02

实战｜TF Lite 让树莓派记下你的美丽笑颜

我们很高兴展示借助 TensorFlow Lite 在 Raspberry Pi 上构建 Smart Photo Booth 应用的经验（我们尚未开放源代码）。该应用可以捕捉笑脸并自动进行记录。此外，您还可以使用语音命令进行交互。简而言之，借助 Tensorflow Lite 框架，我们构建出可实时轻松处理笑脸检测和识别语音命令的应用。

01

语言模型GPT跨界CV，OpenAI揭示强算力Transformer具有通用性

这一次，它要进军CV领域——以Image GPT (简称iGPT)的名义，处理「图像任务」。

02

Swin Transformer V2！MSRA原班人马提出了30亿参数版本的Swin Transformer！

在本文中，作者提出了将Swin Transformer缩放到30亿个参数的技术，并使其能够使用高达1536×1536分辨率的图像进行训练。通过扩大容量和分辨率，Swin Transformer在四个具有代表性的视觉基准上创造了新的记录：ImageNet-V2图像分类的84.0%top-1 准确度，COCO目标检测上的63.1/54.4box / mask mAP ，ADE20K语义分割的59.9 mIoU ，以及Kinetics-400视频动作分类的86.8%top-1 准确度。目前，视觉模型尚未像NLP语言模型那样被广泛探索，部分原因是训练和应用中的以下差异:

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭