木材表面缺陷不利于木材的加工利用,降低木制品的品质,影响生产企业的经济效益,因此木材表面缺陷的图像检测技术越来越受重视。而采用图像处理方法进行木材表面缺陷检测,是实现木材表面缺陷自动检测、提高企业生产效率的必由之路。
AI 科技评论按:每月《Computer Vision News》都会选择一篇关于计算机视觉领域研究成果的论文进行回顾。今年三月份,他们选择了由 Yossi Gandelsman,Assaf Shocher 和 Michal Irani 三位学者(下文中所提到的作者,均指以上三位学者)共同完成的关于 Double-DIP 模型的论文,其中详细介绍了基于耦合的深度图像先验网络对单个图像进行无监督层分割这一技术。
目标检测或定位是数字图像从粗到细的一个渐进过程。它不仅提供了图像对象的类,还提供了已分类图像中对象的位置。位置以边框或中心的形式给出。语义分割通过对输入图像中每个像素的标签进行预测,给出了较好的推理。每个像素都根据其所在的对象类进行标记。为了进一步发展,实例分割为属于同一类的对象的单独实例提供了不同的标签。因此,实例分割可以定义为同时解决目标检测问题和语义分割问题的技术。本文对实例分割的背景、存在的问题、技术、发展、流行的数据集、相关工作以及未来的发展进行了讨论。本文为想在实例分割领域进行研究的人们提供了有价值的信息。
1.PointLLM: Empowering Large Language Models to Understand Point Clouds
自去年起,谷歌的TPU芯片是谷歌云平台客户可以使用的最新一代芯片,专为人工智能推理和训练任务量身定制,如图像识别,自然语言处理和强化学习。
这次这篇文章介绍一篇很有意思的工作:SegRefiner,来自 NeurIPS, 2023,目前代码已开源。SegRefiner 的效果:
Paper链接:https://arxiv.org/abs/2001.05566
论文地址: http://arxiv.org/pdf/2003.10142v3.pdf
是第一次实现同时支持框(box)、点(point)和文本(text) prompt进行任意尺寸原分辨率的3D体素分割。
通常我们看到一幅图像的时候,我们都会关注于图像中的某一点上。这有可能是一个人,一个建筑物或者甚至是一个水桶。图像的清晰部分几乎没有什么意义,这些部分在图像中通常的特点是缺少关注点、颜色单调和纹理平滑。当这样一类图像出现的时候,它们是从图像剩余部分分割出感兴趣目标的理想图像。这篇文章就探索了这类显著性图像的分割。
【导读】一直以来,尽管语义分割、实例分割以及全景分割任务之间都有某种潜在的联系,但它们通常采用不同的网络框架来解决。本文首次探讨了语义分割中的卷积核概念是否同样适用于实例分割,以及更广泛的全景分割。为此,商汤&南洋理工大学提出了一个统一、简单、有效的框架K-Net。具体而言,它可以通过一组动态权重更新的卷积核来对实例和语义类别信息进行正确分割,然后,采用互相匹配的策略为每个卷积核分配学习目标,并进行端到端的训练。K-Net在全景分割任务上超越了所有当前最先进的单模型,并在MS COCO上实现了52.1% PQ,在语义分割任务上也超越了所有的单模型,并在ADE20K上实现了54.3% mIoU。最后,在实例分割任务上,它在MS COCO数据集上的性能表现与Cascade Mask R-CNN相当,但是,推理速度却比它快60%-90%。
Facebook人工智能实验室Alexander Kirillov、吴育昕、何恺明、Ross Girshick等研究人员近日发表新论文,提出一种高效、高质量的目标和场景图像分割新方法。
传统的机器视觉通常包括两个步骤:预处理和物体检测。而沟通二者的桥梁则是图像分割(Image Segmentation)[1]。图像分割通过简化或改变图像的表示形式,使得图像更易于分析。
AI 研习社按:2017 年 7 月,美国二手汽车零售平台 Carvana 在知名机器学习竞赛平台 kaggle 上发布了名为 Carvana 图像掩模大挑战赛(Carvana Image Maski
AI 科技评论按:2017 年 7 月,美国二手汽车零售平台 Carvana 在知名机器学习竞赛平台 kaggle 上发布了名为 Carvana 图像掩模大挑战赛(Carvana Image Mask
论文地址:https://arxiv.org/pdf/2306.12156v1.pdf
在计算机视觉中,图像分割是个非常重要且基础的研究方向。简单来说,图像分割(image segmentation)就是根据某些规则把图片中的像素分成不同的部分(加不同的标签)。
基于人工智能和深度学习方法的现代计算机视觉技术在过去10年里取得了显著进展。如今,它被用于图像分类、人脸识别、图像中物体的识别、视频分析和分类以及机器人和自动驾驶车辆的图像处理等应用上。
图像语义分割是计算机视觉最经典的任务之一,早期的图像分割主要有以下几种实现方法。
进入到有识境界,可以大胆地说自己是一个非常合格的深度学习算法工程师了,能够敏锐地把握自己研究的领域,跟踪前沿和能落地的技术,对自己暂时不熟悉的领域也能快速地触类旁通。
通知:这篇推文有14篇论文速递信息,涉及目标检测、图像分割、显著性目标检测、人脸识别和GAN等方向 最近有些忙,论文速递频率快下降至两天一更了,希望大家可以体谅。 前文回顾 [计算机视觉] 入门学习资料 [计算机视觉论文速递] 2018-03-14 [计算机视觉论文速递] 2018-03-11 目标检测 [1]《Illumination-aware Faster R-CNN for Robust Multispectral Pedestrian Detection》 Abstract:对于行人检测来
本文包含了 6 篇抠图相关的论文代码内容,主要包含两个大方向:图像抠图和视频抠图。
医学图像的自动分割是提取有用信息的重要步骤,可以帮助医生进行诊断。例如它可以用于分割视网膜血管,可以代表它们的结构并测量它们的宽度,从而可以帮助诊断视网膜疾病。
1.AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning
遥感图像处理是数字图像处理技术中的一个重要组成部分,长期以来被广泛应用于农林业的遥感测绘,防灾减灾等领域。本文旨在通过深度学习技术从遥感影像中分类出农田和林业地块。手工从遥感图像中分类出农田和林业区域分类虽然准确但是效率低下,并且很多采用传统图像分割技术的方法泛化性能差,不适合场景复杂的遥感图像。经实践证明,使用深度学习技术在各种计算机视觉任务中都取得了良好的效果,因此本文首先使用先进的深度学习框架进行分类实验,例如使用PSPNet,UNet等作为分割网络对遥感图像数据集进行分类与分割训练。这些框架在ImageNet,COCO,VOC等数据集上表现很好,但是由于遥感图像数据集相对于ImageNet,COCO等数据集,不仅检测对象相对较小而且可供学习的数据集样本较少,需要针对这一特点进行优化。本文经过多次实验将高分辨率的图像切割成合适大小分辨率的图像以减小神经网络的输入,同时进行图片的预处理和数据增强来丰富学习样本。同时在真实情况下,农林区域易受到拍摄视角,光照等造成分割对象重叠,因此本文提出一种处理分割对象重叠的处理策略,来优化边界预测不准确的情况,使用该方法后准确率有明显提升。经实验证明,本文所提出的基于深度学习的农林业遥感影像分割在开源遥感图像数据集上的取得了94.08%的准确率,具有较高的研究价值 农林业遥感图像数据(图1)对于许多与农林业相关的应用至关重要。例如作物类型和产量监测,防灾减灾以及对粮食安全工作的研究和决策支持。最初,这些数据主要由政府机构使用。如今,蓬勃发展的农林业技术也需要在农场管理,产量预测和林业规划等各种应用领域进行革新。以往农林业地块的高质量遥感图像数据主要是手动在高分辨率图像中分割出来的,即通过土地功能不同引起的颜色,亮度或纹理的差异与周围区域 亮度或纹理的差异与周围区域区分开来。尽管农林业遥感图像的手动分类可以非常准确,但是非常耗时耗力。 图1.1:农田的遥感图像分割 定期更新农林业遥感图像数据的需求日益增加扩大了自动化分割农林业遥感图像的需求。 与ImageNet、VOC2007、COCO等目标检测/分类数据集中的大多数图像相比,农林业遥感图像中的对象相对简单。例如,人体的图像数据看起来要复杂得多,因为它包含各种不同纹理和形状的子对象(面部,手部,衣服等)。因此,优化传统的图像分割以及深度学习技术来设计用于农林业遥感图像分割的算法是非常重要的。该模型需要正确地排除不需要进行分割的对象(房屋,工厂,停车场等),区分具有几乎相似的光谱特性的相邻区域和可见度差的边界区域,并且正确地分割出所需的对象。 1.2 选题来源与经费支持 本研究课题来源于计算机与信息工程学院 随着传感器技术,航空航天技术,图像处理技术快速的发展,利用卫星遥感图像进行深度学习处理广泛应用于生产实际中。由于农林业遥感图像场景复杂,使用传统图像处理分割算法效果差且泛化性能弱,本文使用深度学习方法,在现有的的深度学习模型上训练,优化,最终提出一种一种优化后的深度学习模型,经测试,该模型在收集的农林业遥感图像数据集上可以准确的分割出所需的对象,本文提出的模型主要解决如下几个难点:
[1]《Towards Improved Cartoon Face Detection and Recognition Systems》
作者:Vinithavn 编译:ronghuaiyang 导读 一个简单的例子,详细的过程和代码说明。 1. 介绍 什么是物体检测? 给定一张图像,我们人类可以识别图像中的物体。例如,我们可以检测
文章:EdgeCalib: Multi-Frame Weighted Edge Features for Automatic Targetless LiDAR-Camera Calibration
1.MVDiffusion: Enabling Holistic Multi-view Image Generation with Correspondence-Aware Diffusion
1.RSPrompter: Learning to Prompt for Remote Sensing Instance Segmentation based on Visual Foundation Model
本文分享 NeruIPS 2023 论文SegRefiner: Towards Model-Agnostic Segmentation Refinement with Discrete Diffusion Process,通过Diffusion实现高精度图像分割。
在滤波、变换、缩放等任务中,图像分割具有重要的意义。图像分割是将不同的对象划分为不同的部分,并将这些区域以明显的颜色或者记号标记出来。图像分割是使用轮廓、边界框等概念进行其他高级计算机视觉任务(例如对象分类和对象检测)的基础。良好的图像分割为我们后续的图像分类以及检测奠定了基础。
目标分割是计算机视觉领域的一个重要任务,旨在从图像或视频中准确地分割出特定的目标或对象。与目标检测关注物体位置和边界框不同,目标分割要求精确地识别并标记目标的每个像素,实现对目标的像素级别理解。
图像分割是计算机视觉中除了分类和检测外的另一项基本任务,它意味着要将图片根据内容分割成不同的块。相比图像分类和检测,分割是一项更精细的工作,因为需要对每个像素点分类。
目标检测和实例分割是计算机视觉的基本任务,在从自动驾驶到医学成像的无数应用中发挥着关键作用。目标检测的传统方法中通常利用边界框技术进行对象定位,然后利用逐像素分类为这些本地化实例分配类。但是当处理同一类的重叠对象时,或者在每个图像的对象数量不同的情况下,这些方法通常会出现问题。
对于希望运用某个现有框架来解决自己的任务的人来说,预训练模型可以帮你快速实现这一点。通常来说,由于时间限制或硬件水平限制大家往往并不会从头开始构建并训练模型,这也就是预训练模型存在的意义。大家可以使用预训练模型作为基准来改进现有模型,或者针对它测试自己的模型:
图像分割(image segmentation)技术是计算机视觉领域的一个重要的研究方向,是图像语义理解的重要一环。图像分割是指将图像分成若干具有相似性质的区域的过程,从数学角度来看,图像分割是将图像划分成互不相交的区域的过程。近些年来随着深度学习技术的逐步深入,图像分割技术有了突飞猛进的发展,该技术相关的场景物体分割、人体前背景分割、人脸人体Parsing、三维重建等技术已经在无人驾驶、增强现实、安防监控等行业都得到广泛的应用。
SAM 是一种在自然图像分割方面取得成功的模型,但在医学图像分割方面表现不佳。MedSAM 首次尝试将 SAM 的成功扩展到医学图像,并成为用于分割各种医学图像的通用工具。为了开发 MedSAM,首先需要一个大型医学图像数据集,其中包括来自 11 种不同模态的超过 20 万个 Mask。该数据集用于训练和微调 MedSAM 模型。最重要的是,提供了一种简单的微调方法,使 SAM 适应一般的医学图像分割。
这一大部分我们将要介绍的是深度学习大火之前人们利用数字图像处理、拓扑学、数学等方面的只是来进行图像分割的方法。当然现在随着算力的增加以及深度学习的不断发展,一些传统的分割方法在效果上已经不能与基于深度学习的分割方法相比较了,但是有些天才的思想还是非常值得我们去学习的。
算法:Grabcut初始化图像分割是通过输入掩模为算法提供一些提示,掩模上有一些绿色和红色的标记,给算法提供了一些提示,这些像素分别属于前景像素和背景像素,使用该算法对图像进行迭代分割,得到最佳结果。基于图论的方法还有Graphcut、Random Walk等。
手动着色黑白视频是需要大量劳动力且繁琐的过程。 但是现在,由NVIDIA研究人员开发的一种新的基于深度学习的算法有望使这个过程变得更加容易,新的框架允许视觉艺术家简单地着色场景中的一个帧,并且AI可以实时地将场景的其他部分着色。
图像分割(image segmentation)技术是计算机视觉领域的个重要的研究方向,是图像语义理解的重要一环。图像分割是指将图像分成若干具有相似性质的区域的过程,从数学角度来看,图像分割是将图像划分成互不相交的区域的过程。近些年来随着深度学习技术的逐步深入,图像分割技术有了突飞猛进的发展,该技术相关的场景物体分割、人体前背景分割、人脸人体Parsing、三维重建等技术已经在无人驾驶、增强现实、安防监控等行业都得到广泛的应用。
目前主流的高精度实例物体分割框架都是基于很强的物体检测方法,如 Fast/Faster R-CNN, YOLO 等。虽然不同的方法设计了不同的结构,但是这些方法都遵循着一个基本的规则:首先从图像中生成大量的候选区域,然后用非极大值抑制(NMS)算法从这些数以千计的候选区域中剔除那些重复的候选区域。
欢迎来到《每周CV论文推荐》。在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的。
这一大部分我们将要介绍的是深度学习大火之前人们利用数字图像处理、拓扑学、数学等方面的只是来进行图像分割的方法。当然现在随着算力的增加以及深度学习的不断发展,一些传统的分割方法在效果上已经不能与基于深度学习的分割方法相比较了,但是有些天才的思想还是非常值得我们去学习的。 1.基于阈值的分割方法 阈值法的基本思想是基于图像的灰度特征来计算一个或多个灰度阈值,并将图像中每个像素的灰度值与阈值作比较,最后将像素根据比较结果分到合适的类别中。因此,该方法最为关键的一步就是按照某个准则函数来求解最佳灰度阈值。 阈值法特别适用于目标和背景占据不同灰度级范围的图。 图像若只有目标和背景两大类,那么只需要选取一个阈值进行分割,此方法成为单阈值分割;但是如果图像中有多个目标需要提取,单一阈值的分割就会出现作物,在这种情况下就需要选取多个阈值将每个目标分隔开,这种分割方法相应的成为多阈值分割。
AAAI 2024 (AAAI Conference on Artificial Intelligence) 人工智能国际会议于近日公布论文录用结果,本届会议共收到9862篇份论文投稿,最终录用2342篇论文,录用率23.75%。
在之前的那篇文章中:深度学习图像分割(一)——PASCAL-VOC2012数据集(vocdevkit、Vocbenchmark_release)详细介绍 我们大概了解了VOC2012图像分割数据集的基本格式,现在我们来讨论一下我们具体需要什么样的数据格式和我们如何去制作自己的数据集。
翻 译 | 天字一号(郑州大学)、李美丽(华南师范大学)、had_in(电子科技大学)、nengdaiper(北京科技大学)
领取专属 10元无门槛券
手把手带您无忧上云