生成对抗网络(GAN)[19] 是由一对存在竞争关系的神经网络——生成器和判别器——组成的深度神经网络架构。通过交替优化两个目标函数训练该模型,这样可以让生成器 G 学会产生与真实图像类似的样本,还能让判别器 D 学会更好地甄别真假数据。这种范式潜力巨大,因为它可以学会生成任何数据分布。这种模型已经在一些计算机视觉问题上取得了一定成果,例如文本到图像的转换 [56] 和图像到图像的转换 [24,59]、超分辨率 [31] 以及逼真的自然图像生成 [25]。
机器之心专栏 机器之心编辑部 本文提出了一个图像去模糊方向的综述,来自澳大利亚国立大学、中山大学、美国加州大学 Merced 分校、日本乐天研究所的研究者回顾了基于深度学习的图像去模糊技术研究进展,回顾了图像去模糊的研究历史,总结了当前的研究进展,并进行了展望。该综述近期被计算机视觉旗舰期刊 International Journal of Computer Vision 接收。 链接:https://link.springer.com/article/10.1007/s11263-022-01633-
作者:Qiantong Xu、Gao Huang、Yang Yuan、Chuan Guo、Yu Sun、Felix Wu、Kilian Weinberger
图像分类是计算机视觉中最基础的一个任务,也是几乎所有的基准模型进行比较的任务,从最开始比较简单的10分类的灰度图像手写数字识别mnist,到后来更大一点的10分类的cifar10和100分类的cifar100,到后来的imagenet,图像分类任务伴随着数据库的增长,一步一步提升到了今天的水平。现在在Imagenet这样的超过1000万图像,2万类的数据集中,计算机的图像分类水准已经超过了人类。
欢迎大家来到《GAN优化》专栏,这里将讨论GAN优化相关的内容,本次将和大家一起讨论GAN的评价指标。
通过MHSA与FFN进行改进,本文提出一种高效Transformer,它可以捕获长距离像素相关性,同时可适用于大尺寸图像。所提方案Restormer(Restoration Transformer)在多个图像复原任务上取得了SOTA性能,包含图像去雨、图像去运动模糊、图像去散焦模糊以及图像降噪(包含合成与真实噪声),可参见下图。
长期以来,人脑结构发育的神经影像学研究一致认为,灰质体积(Gray Matter Volume:GMV)和皮层厚度(Cortical Thickness:CT)在青少年期呈下降趋势。灰质密度(Gray Matter Density:GMD)作为与灰质体积密切相关的测量指标,其发展过程尚未得到系统化探索。本研究作为费城神经发展队列研究(Philadelphia Neurodevelopmental Cohort:PNC)的一部分,采集了1189例8~23岁年轻群体的T1影像数据,针对4项局部灰质指标的年龄效应及性别差异进行了比较分析。本研究采用自定义T1像分割和新型高分辨率灰质脑区分割手段,从1625个分割脑区中提取GMD,GMV以及灰质质量(Gray Matter Mass:GMM=GMD x GMV),CT,4项灰质指标。基于非线性模型的拟合分析揭示了,各灰质指标独特的年龄效应及性别差异。GMV和CT随年龄增长而下降,GMD则随年龄增长而升高且表现出最为强烈的年龄相关效应,GMM则呈轻微下降趋势。全脑范围内,女性群体的GMV指标低于男性,然而GMD指标则显著高于男性。以上结果发现表明,GMD能够作为评估大脑发育及认知发展的主要表型指标。此外,青少年期前后出现的灰质减少现象可能并非像以往研究认为的那样简单。本文作者强调,今后还需要结合组织测量学MRI研究,针对各项灰质指标的神经生物学意义进行更为深入的探讨。本文发表在The Journal of Neuroscience杂志
一直以来,甚少有normalization技术在low-level得到广泛应用并取得优异性能,就算得到应用其性能也会受限或者造成异常的视觉效果。
【新智元导读】图像分割是以人眼识别为基础,而人眼识别是从整体到局部的分割方式。本文首次提出了一种模拟人眼判别的新指标,结果远优于现有方法,并证明其与人眼判别结果更加一致。
Women in Data Science 与合作伙伴共同发起了 WiDS 数据马拉松竞赛(WiDS datathon)。赛题是创建一个能够预测卫星图像上油棕种植园存在情况的模型。
Web 正在变得越来越快。HTTP Archive 网站的数据显示,越来越多的网站通过了核心 Web 指标的评估:加载速度、交互响应性和布局稳定性。
好数据是好结果的前提,我们会对您的数据进行细致的检查,提高科研结果的严谨性。
今天发现ssim的计算里面有高斯模糊,为了快速计算,先对每个小块进行计算,然后计算所有块的平均值。可以参考源代码实现,而且代码实现有近似的在里面!matlab中中图像PSNR和SSIM的计算
与领先的超分辨率深度神经网络模型相比,Adobe的超分辨率有多有效?这篇文章试图评估这一点,Adobe的超级分辨率的结果非常令人印象深刻。 超分辨率技术 超分辨率是通过提高图像的视分辨率来提高图像质量
学术界的图像去模糊往往采用了最简单的单一假设,而真实场景的模糊往往与其他退化并存,比如压缩、下采样。
图像质量评估 (IQA) 在计算机断层扫描 (CT) 成像中极为重要,因为它有助于 辐射剂量的优化和医学成像中新算法的开发,例如 恢复。此外,由于过量的辐射会对患者造成有害影响,因此从低剂量图像生成高质量图像是医学领域的热门话题。然而,尽管峰值信噪比 (PSNR) 和结构相似性指数度量 (SSIM) 是 这些算法使用最广泛的评估指标,但它们与放射科医生对图像质量的看法的相关性已被证明是 在以前的研究中不足,因为他们根据数字像素值计算图像分数。此外 ,由于需要原始参考图像来计算这些指标 ,因此它们在实际临床环境中无效,由于辐射剂量会给患者带来风险,因此通常不可能获得原始、高质量的图像。为了克服这些限制,一些研究旨在开发一种 无参考的新颖图像质量指标,该指标与放射科医生对没有 任何参考图像的图像质量的看法密切相关 。
在上一篇文章中,我们初步介绍了 GAN 的原理以及如何使用 MMGeneration 训练 DCGAN 模型。
医学图像是临床实践中必不可少的诊断工具。由于医疗状况通常以存在小特征(例如微钙化、骨折)为特征,因此需要以高空间分辨率采集图像,以捕获所需的细节。然而,高分辨率医学图像通常具有较大的尺寸,特别是当覆盖较大的解剖区域时;这可能会导致计算机辅助诊断(CAD)复杂性增加。因此,有效的压缩方法对于实现医学图像的计算上可行的分析是必要的。
近两年分享了全球最多的Power BI SVG自定义图表方法,新卡片图使得SVG有了更大的舞台,以下罗列几种用法。
从MAP(Maximum A Posteriori)角度出发,盲图像降噪可以描述为如下优化问题:
Paper: https://arxiv.org/pdf/2105.13084.pdf
对于人眼来说,很容易看出两个给定图像的质量有多相似。例如下图将各种空间噪声添加到图片中,我们很容易将它们与原始图像进行比较,并指出其中的扰动和不规则性。但是在机器学习中我们需要数学表达式来量化这种差异。
来源:DeepHub IMBA本文约3400字,建议阅读7分钟本文为你介绍如何查找相似图像的理论基础并且使用一个用于查找商标的系统为例介绍相关的技术实现。 在本文中将介绍如何查找相似图像的理论基础并且使用一个用于查找商标的系统为例介绍相关的技术实现,本文提供有关在图像检索任务中使用的推荐方法的背景信息。阅读本文后你将有能够从头开始创建类似图像的搜索引擎的能力。 图像检索(又名基于内容的图像检索Content-Based Image Retrieval 或 CBIR)是任何涉及图像的搜索的基础。 上图来自文
本文为粉丝投稿,原文链接:https://zhuanlan.zhihu.com/p/701844704。
沉浸式媒体应用与设备近年来的兴起,在一定程度上导致了MPEG、3GPP、WebVR以及其他相关领域标准化的推进。就目前的沉浸式媒体应用与设备而言,如何评价其体验质量并量化形成对比是十分必要的。就此,MPEG已经出台了相应文件N16933 提案,大意上是在沉浸式媒体系统中要求加入和质量评估有关的标准。该文件同时也采纳了大量该方面的研究成果,部分论文的观点将会在下文中被提到。
AI 生成内容已经成为当前人工智能领域的最热门话题之一,也代表着该领域的前沿技术。近年来,随着 Stable Diffusion、DALL-E3、ControlNet 等新技术的发布,AI 图像生成和编辑领域实现了令人惊艳的视觉效果,并且在学术界和工业界都受到了广泛关注和探讨。这些方法大多基于扩散模型,而这正是它们能够实现强大可控生成、照片级生成以及多样性的关键所在。
随着传统的目标检测和目标识别方法的发展,很多问题已经得到了解决,人们对于解决更具挑战性的问题的兴趣也在激增,这些问题需要计算机视觉系统更好的「理解」能力。图像描述 [31]、可视化问答 [2]、自然语言对象检索 [20] 和「可视化图灵测试」[11] 等都存在要求丰富的视觉理解、语言理解以及知识表征和推理能力的多模态 AI 挑战。随着对这些挑战的兴趣不断增加,人们开始审视能够解决这些问题的基准和模型。发现意想不到的相关性、提供找到答案的捷径的神经网络,到底是针对这些挑战取得的进展,还是只是最新的类似于聪明的汉斯 [29,30] 或波将金村 [12] 这样的矫饰结果呢?
图像超分辨率(SR)是指从低分辨率(LR)图像中恢复高分辨率(HR)图像的过程,是计算机视觉和图像处理中一种重要的图像处理技术。它在现实世界中有着广泛的应用,如医学成像、监控和安全等。除了改善图像的感知质量,它还有助于改善其它计算机视觉任务。总的来说,由于单个 LR 图像通常对应多个 HR 图像,因此这个问题比较具有挑战性。以往的文献中提到了多种经典的 SR 方法,包括基于预测的方法、基于边缘的方法、统计方法、基于 patch 的方法和稀疏表征方法等。
目标结构(例如,肿瘤)和高危器官 (OAR) 的描绘是治疗计划过程中的一个关键步骤。由于手动分割这些结构具有挑战性且耗时,因此开发准确的自动分割方法对于帮助治疗前放疗计划和 IGART 至关重要。近年来,已经引入了多种自动分割方法。然而,对于哪种分割方法最好,目前还没有达成共识。这可能是由于解剖结构的数量和种类繁多,每一个都针对特定的分割挑战。事实上,一些自动分割方法是为特定区域或模态设计的,并且可能在一个领域更准确而在其他领域不太准确。
【新智元导读】微软团队 NAACL 2016 论文,描述微软“连续图像叙事数据库”(SIND),也是首个用于连续视觉-语言转换的数据集,能逐步将独立图像转变为连续的故事。虽然有时结果让人啼笑皆非,但这是让人工智能像人一样理解事物、进行主观表达的一个进步。 视觉叙事(Visual Storytelling) 摘要 我们介绍首个用于连续视觉-语言转换的数据集,并探索在视觉叙事任务中如何应用该数据集。在该数据集首次发布的版本——SIND v.1——中,包括81,743个不同照片,排列成符合文字描述和故事情节的20
因此,往往需要将复杂的信号做拆分,拆分成多个简单的分布拟合问题,再分别求解。信号拆分方式的不同产生了不同的生成模型。
视觉一直是人类最主要的信息来源,研究表明,人类获取外界信息75%依靠视觉系统,而在驾驶汽车时,这一比例甚至高达90%。对于想要代替人类司机的自动驾驶技术来说,也是同样。视觉对人类来说是天生的,可是要达到人类等级的视觉能力,计算机智能必须克服许多重大挑战,其中之一便是对图像的深入理解,包括在障碍监测和道路监测等任务中。 现在,自动驾驶技术已成为最火热的领域之一,竞争者包括谷歌等AI技术巨头、汽车制造商以及硬件技术领军人物。今年6月,芯片巨头英特尔收购了机器视觉公司 Itseez,并由此进军自动驾驶市场。昨
该文提出一种新颖的框架NBNet用于图像降噪,它从新的角度出发设计:通过图像自适应投影进行降噪。具体来说,NBNet通过训练这样的网络进行信号与噪声的分离:在特征空间学习一组重建基;然后,图像降噪可以通过将输入图像映射到特征空间并选择合适的重建基进行噪声重建。
越来越多的数据流,让视觉相似度检索在应用场景中越来越难,例如微信每天都会产生十几亿甚至上百亿的流数据网络图片,给相似图片搜索带来了挑战。而视觉哈希编码技术逐渐成为实现相似性检索的有效途径。
影像学纹理特征是图像中图像强度的变化,是影像组学的重要组成部分。本文的目的是讨论影响纹理度量性能的一些参数,并提出建议,以指导未来影像组学研究的设计和评估。
最近一部分的内容将会比较容易,将和大家一起讨论GAN的评价指标,也没有太难以理解的东西,希望大家踊跃讨论,欢迎留言。
VMAF是目前比较好用的质量评价模型。但是在图像/视频压缩,视频增强等领域,可能需要一定的质量评价模块作为损失函数指导网络的训练。VMAF作为不可微的质量评价模型,无法直接作为损失函数,在这样的前提下,Darren等人提出使用神经网络去模拟VMAF的分数,使得该质量评价模块可以直接应用于其他网络的训练过程当中。
尽管单任务图像复原已取得了极大成功,但单模型处理多复原任务仍极具挑战。本文对 “多合一”图像复原任务进行了深入探索并指出其所面临的两个关键挑战并提出了对应的应对方案:
正如您现在听说的那样,生成对抗网络是一种能够从生成器和鉴别器之间的竞争中学习分布的框架。生成器学习生成希望与真实数据无法区分的样本,而鉴别器学习分类给定图像是真实的还是虚假的。自 GAN 发明以来,它们经历了各种改进,被认为是用于各种问题的强大工具,尤其是在生成和重建任务中。
编者按:图像填充是深度学习领域内的一个热点任务。尽管现有方法对于小规模、稀疏区域的填充可以取得不错的效果,但对于大规模的缺失区域始终无能为力。为解决这一问题,微软亚洲研究院提出了协同调制生成式对抗网络——一种通用的方法,跨越了条件与无条件图像生成领域之间的鸿沟。
深度学习已经应用在计算机视觉领域多个方面,在最常见的图像分类、对象检测、图像语义分割、实例分割视觉任务都取得了良好的效果,如下图所示:
视觉信号压缩旨在最小化图像数据,在网络资源和存储容量有限的情况下,提高图像/视频的服务质量。自1991年以来,视觉信号的压缩率每十年增长一倍。然而,在即将到来的下一个十年,传统编解码器面对1,000倍压缩的超低比特率需求,已经经触及了香农极限。幸运的是,多模态大模型 (Large Multimodal Model, LMM) 的快速发展,为超低比特率的压缩提供了可能。
ORB 是 Oriented Fast and Rotated Brief 的简称,可以用来对图像中的关键点快速创建特征向量,这些特征向量可以用来识别图像中的对象。 其中,Fast 和 Brief 分别是特征检测算法和向量创建算法。ORB 首先会从图像中查找特殊区域,称为关键点。关键点即图像中突出的小区域,比如角点,比如它们具有像素值急剧的从浅色变为深色的特征。然后 ORB 会为每个关键点计算相应的特征向量。ORB 算法创建的特征向量只包含 1 和 0,称为二元特征向量。1 和 0 的顺序会根据特定关键点和其周围的像素区域而变化。该向量表示关键点周围的强度模式,因此多个特征向量可以用来识别更大的区域,甚至图像中的特定对象。 ORB 的特点是速度超快,而且在一定程度上不受噪点和图像变换的影响,例如旋转和缩放变换等。
原文标题:Voting with your eyes – subjective video test results
文章名称:A Survey of 6D Object Detection Based on 3D Models for Industrial Applications,J. Imaging | Free Full-Text | A Survey of 6D Object Detection Based on 3D Models for Industrial Applications (mdpi.com)
本文详细介绍了来自北京航空航天大学徐迈教授课题组发表在IEEE Transactions on Image Processing (TIP) 2021上的最新工作“Deep Coupled Feedback Network for Exposure Fusion and Image Super-Resolution”。
导读:图像视频压缩是传统多媒体技术的核心,也是一项牵动整个多媒体信息产业的基础技术。深度学习在该领域的成功运用,已经引起了不少IT巨头的关注。图鸭科技是国内少有的专注于深度学习图像视频压缩的初创公司,其创始团队也是CV君的几位前同事,在刚刚过去的CVPR 2019 CLIC 图像压缩挑战赛上,图鸭获得了 4 项冠军。本期CV君邀请图鸭科技对他们的获胜论文进行了解读,希望对做相关方向的朋友有所启发。
宾夕法尼亚大学的Raquel E. Gur教授及其研究团队,利用样本量高达9498的费城神经发展队列研究(不同于一般的纵向研究,属于纵向展开但不是同一个被试)数据库(PNC),收集了1601名青年人的脑影像数据,从社会经济地位(socioeconomic status,SES)和创伤性应激事件( traumatic stressful events ,TSEs)的经历两个方面研究环境对年轻人的心理、行为和脑发育的影响,结果表明低SES(低社会经济地位)和TSEs(创伤性应激事件经历)是影响认知神经发育和脑结构及功能的独立因素,低SES和经历过TSE的青年人具有较早的生理发育和脑发育特征。研究进一步强调了环境因素对神经发育影响的重要性,研究结果发表在JAMA Psychiatry杂志。
距离我们发出第一篇音视频技术文章已经过去一年了,回顾这一年,我们发了几十篇文章,覆盖了音视频基础知识、工具使用、工程示例、实战经验等主题,这些文章基本上构成了入门音视频开发并做一些功能实现和指标优化工作所需要的知识框架,这里我们来回顾下这些文章,做一下内容简介,给需要的朋友提供一些指引。
领取专属 10元无门槛券
手把手带您无忧上云