首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

CVPR2023 | 用于统一的图像恢复和增强的生成扩散先验

在拍摄、存储、传输和渲染过程中,图像质量往往会降低。图像恢复和增强的目标是逆转这种退化并改善图像质量。通常,恢复和增强任务可以分为两大类:1)线性反演问题,例如图像超分辨率(SR)、去模糊、修补、彩色化等,在这些任务中,退化模型通常是线性的且已知;2)非线性或盲问题,例如低光增强和HDR图像恢复,其中退化模型是非线性的且未知。对于特定的线性退化模型,可以通过对神经网络进行端到端的监督训练来解决图像恢复问题。然而,在现实世界中,受损图像往往存在多个复杂的退化情况,全面监督的方法很难泛化应用。近年来,通过生成模型寻找更通用的图像先验并在无监督设置下处理图像恢复问题引起了广泛的兴趣。在推理过程中,可以处理不同退化模型的多个恢复任务而无需重新训练。例如,经过大量干净图像数据集训练的生成对抗网络(GAN)通过GAN反演,在各种线性反演问题上取得了成功,学习到了真实世界场景的丰富知识。与此同时,去噪扩散概率模型(DDPMs)在GAN的基础上展现了令人印象深刻的生成能力、细节水平和多样性。作为早期尝试,现有的工作——去噪扩散恢复模型(DDRM)使用预训练的DDPMs进行变分推断,并在多个恢复任务上取得了令人满意的结果,但其在已知线性退化矩阵上利用奇异值分解(SVD),因此仍然局限于线性反演问题。本文进一步提出了一种高效的方法,名为生成扩散先验(GDP)。它利用经过良好训练的DDPM作为通用图像恢复和增强的有效先验,并以退化图像作为引导。作为一个统一的框架,GDP不仅适用于各种线性反演问题,还首次推广到非线性和盲目图像恢复和增强任务。GDP采用了一种盲退化估计策略,在去噪过程中随机初始化并优化GDP的退化模型参数。此外,为了进一步提高光真实性和图像质量,本文系统地研究了一种有效的指导扩散模型的方法。另外,借助提出的分层指导和基于分块的生成策略,GDP能够恢复任意分辨率的图像,其中首先预测低分辨率图像和退化模型,以引导高分辨率图像的生成过程。

01

CIKM'22 | EC4SRec:可解释引导的对比学习用于序列推荐

对比学习被广泛的应用于序列推荐,以解决交互数据稀疏的问题,但现有的基于对比学习的方法无法确保通过对给定锚用户序列的一些随机增强(或序列采样)获得的正(或负)序列在语义上保持相似(或不同)。当正负序列分别为假阳性和假阴性时,可能会导致推荐性能下降。本文通过提出解释引导增强(EGA)和解释引导对比学习序列推荐(EC4SRec)模型框架来解决上述问题。EGA 的关键思想是利用解释方法来确定商品在用户序列中的重要性,并相应地推导出正负序列。然后,EC4SRec 在 EGA 操作生成的正负序列上结合自监督和监督对比学习,以改进序列表征学习以获得更准确的推荐结果。

04

AAAI 2024 | 深度引导的快速鲁棒点云融合的稀疏 NeRF

具有稀疏输入视图的新视角合成方法对于AR/VR和自动驾驶等实际应用非常重要。大量该领域的工作已经将深度信息集成到用于稀疏输入合成的NeRF中,利用深度先验协助几何和空间理解。然而,大多数现有的工作往往忽略了深度图的不准确性,或者只进行了粗糙处理,限制了合成效果。此外,现有的深度感知NeRF很少使用深度信息来创建更快的NeRF,总体时间效率较低。为了应对上述问题,引入了一种针对稀疏输入视图量身定制的深度引导鲁棒快速点云融合NeRF。这是点云融合与NeRF体积渲染的首次集成。具体来说,受TensoRF的启发,将辐射场视为一个的特征体素网格,由一系列向量和矩阵来描述,这些向量和矩阵沿着各自的坐标轴分别表示场景外观和几何结构。特征网格可以自然地被视为4D张量,其中其三个模式对应于网格的XYZ轴,第四个模式表示特征通道维度。利用稀疏输入RGB-D图像和相机参数,我们将每个输入视图的2D像素映射到3D空间,以生成每个视图的点云。随后,将深度值转换为密度,并利用两组不同的矩阵和向量将深度和颜色信息编码到体素网格中。可以从特征中解码体积密度和视图相关颜色,从而促进体积辐射场渲染。聚合来自每个输入视图的点云,以组合整个场景的融合点云。每个体素通过参考这个融合的点云来确定其在场景中的密度和外观。

01

强化学习从基础到进阶--案例与实践含面试必知必答[9]:稀疏奖励、reward shaping、curiosity、分层强化学习HRL

实际上用强化学习训练智能体的时候,多数时候智能体都不能得到奖励。在不能得到奖励的情况下,训练智能体是非常困难的。例如,假设我们要训练一个机器臂,桌上有一个螺丝钉与一个螺丝起子,要训练它用螺丝起子把螺丝钉栓进去很难,因为一开始智能体是什么都不知道,它唯一能够做不同的动作的原因是探索。例如,我们在做 Q学习 的时候会有一些随机性,让它去采取一些过去没有采取过的动作,要随机到,它把螺丝起子捡起来,再把螺丝栓进去,就会得到奖励1,这件事情是永远不可能发生的。所以,不管演员做了什么事情,它得到的奖励永远都是 0,对它来说不管采取什么样的动作都是一样糟或者是一样好。所以,它最后什么都不会学到。

03

CVPR2023 | 通过示例绘制:基于示例的图像编辑与扩散模型

由于社交媒体平台的进步,照片的创意编辑成为了普遍需求。基于人工智能的技术极大地降低了炫酷图像编辑的门槛,不再需要专业软件和耗时的手动操作。深度神经网络通过学习丰富的配对数据,可以产生令人印象深刻的结果,如图像修复、构图、上色和美化。然而,语义图像编辑仍然具有挑战性,它旨在操纵图像内容的高级语义并保持图像的真实性。目前,大规模语言图像模型能够以文本提示为指导实现图像操作,但是详细的文本描述常常不够准确,很难描述细粒度的物体外观。因此,需要开发一种更直观的方法来方便新手和非母语使用者进行精细的图像编辑。

03

追踪任务期间fMRI功能连接的空间动态

功能磁共振成像(fMRI)测量的功能连通性(FC)为探索大脑组织提供了一个强有力的工具。脑组织的时间动力学研究表明,功能连接体具有很大的时间变异性,这可能与心理状态的转变和/或适应过程有关。大多数动态研究,如功能连接体和功能网络连接(FNC),都关注于宏观的FC变化,即不同脑网络来源、节点和/或感兴趣区域的时间相干性变化,其中假设在网络或节点内FC是静态的。在本文中,我们发展了一种新的方法来检查FC的空间动力学,而不假设其网络内的平稳性。我们将我们的方法应用于22名受试者的听觉oddball任务(AOD)中的fMRI数据,试图通过评估空间连通性是否随任务条件而变化来捕获/验证该方法。结果表明,除了参与传统的时间动态,如跨网络变异性或动态功能网络连通性(dFNC),连接网络还表现出随时间的空间变异性。此外,我们还通过聚类分析评估个体对AOD任务中目标(oddball)检测的功能对应关系,研究了FC的空间动态与认知过程的关系。提取认知任务对应状态,并分离对应状态的动态FC空间图。在不同的任务引导的状态下,任务刺激同步状态随着默认模式网络(defaultmode network, DMN)与认知注意网络强的负相关关系显著降低。我们还观察到越来越多的任务异步状态,这种状态表现出没有DMN的反相关。研究结果强调了认知任务对观察到的空间动态结构的影响。我们还发现,我们方法得到的FC空间动态模式与宏观dFNC模式基本一致,但在空间上有更多的细节和规范,同时源内部的连通性提供了新的信息,并随时间而变化。总的来说,我们证明了(通常被忽视的)连接的空间动力学存在的证据,它与任务的联系和认知/心理状态的暗示。

03
领券