首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

谷歌大脑发布GAN全景图:看百家争鸣的生成对抗网络

深度生成模型可以应用到学习目标分布的任务上。它们近期在多种应用中发挥作用,展示了在自然图像处理上的巨大潜力。生成对抗网络(GAN)是主要的以无监督方式学习此类模型的方法之一。GAN 框架可以看作是一个两人博弈,其中第一个玩家生成器学习变换某些简单的输入分布(通常是标准的多变量正态分布或均匀分布)到图像空间上的分布,使得第二个玩家判别器无法确定样本术语真实分布或合成分布。双方都试图最小化各自的损失,博弈的最终解是纳什均衡,其中没有任何玩家能单方面地优化损失。GAN 框架一般可以通过最小化模型分布和真实分布之间的统计差异导出。

03

谷歌大脑发布GAN全景图:看百家争鸣的生成对抗网络

深度生成模型可以应用到学习目标分布的任务上。它们近期在多种应用中发挥作用,展示了在自然图像处理上的巨大潜力。生成对抗网络(GAN)是主要的以无监督方式学习此类模型的方法之一。GAN 框架可以看作是一个两人博弈,其中第一个玩家生成器学习变换某些简单的输入分布(通常是标准的多变量正态分布或均匀分布)到图像空间上的分布,使得第二个玩家判别器无法确定样本术语真实分布或合成分布。双方都试图最小化各自的损失,博弈的最终解是纳什均衡,其中没有任何玩家能单方面地优化损失。GAN 框架一般可以通过最小化模型分布和真实分布之间的统计差异导出。

04

SinGAN: Learning a Generative Model from a Single Natural Image

我们介绍了SinGAN,这是一个无条件的生成模型,可以从单一的自然图像中学习。我们的模型经过训练,可以捕捉到图像中斑块的内部分布,然后能够生成高质量的、多样化的样本,这些样本承载着与图像相同的视觉内容。SinGAN包含一个完全卷积GAN的金字塔,每个负责学习图像不同比例的斑块分布。这允许生成任意大小和长宽比的新样本,这些样本具有显著的可变性,但同时保持训练图像的全局结构和精细纹理。与以前的单一图像GAN方案相比,我们的方法不限于纹理图像,也不是有条件的(即它从噪声中生成样本)。用户研究证实,生成的样本通常被混淆为真实的图像。我们说明了SinGAN在广泛的图像处理任务中的效用。

05

这篇文章要在GANs圈里C位出道了(内附源码与资源链接)

【导读】生成对抗网络(GANs) 是一类深度生成模型,旨在以无监督方式来学习目标的分布。虽然这类模型已成功应用并解决很多问题,但由于需要大量超参数微调、神经网络结构的设计及众多训练技巧等原因,导致GANs 的训练一直以来是个很大的挑战。为了解决GANs 的量化标准以及对其失败模式分析等问题,许多研究者提出了一系列损失函数、正则化方法、归一化及不同的网络结构来解决GANs 模型的量化标准问题并试图从其失败模式中找到有效的解决方案。本文中,我们将从实践的角度清醒地认识当前GANs 的研究现状。通过复现一些性能最佳的模型,来探索当前整个 GANs 的研究情况。此外,我们进一步讨论了GANs 模型一些常见的陷阱(pitfall) 及复现问题。最后,我们在GitHub 开源了本文的研究项目,并在TensorFlow Hub 上提供了预训练的模型。

04

Large scale GAN training for high fidelity natural image synthesis解读

尽管最近几年在生成式图像建模上取得了进步,但从ImageNet这样的复杂数据集生成高分辨率、多样化的图像仍然是一个具有挑战性的工作。为了达到这一目标,本文作者训练了到目前为止最大规模的生成对抗网络(BigGAN),并对这种规模下的网络在训练时的不稳定性进行了研究。作者发现,将正交正则化用于生成器网络能够起到很好的效果,通过对隐变量的空间进行截断处理,能够在样本的真实性与多样性之间进行精细的平衡控制。本文提出的方法在类别控制的图像生成问题上取得了新高。如果用ImageNet的128x128分辨率图像进行训练,BigGAN模型生成图像的Inception得分达到了166.3,FID为9.6。

03

ICCV 2023: StyleInV 论文解读

这篇论文所探讨的核心问题是如何生成高质量、逼真的合成视频。视频生成是一个非常重要且具有挑战性的任务,因为视频序列具有强烈的时间依赖性,如果不能很好地建模这种时序依赖,生成的视频就会出现不连贯、不自然的问题。然而,在长时间跨度内的依赖关系对许多模型来说仍然是个难点。所以该论文提出了时间长短记忆机制,旨在解决其他方法在捕捉和利用长距离时序依赖上存在的困难。该机制的提出对视频生成领域意义重大,因为高质量的合成视频可以应用于许多领域,如自动驾驶的模拟、人机交互的虚拟环境、影视制作等。如果不能生成逼真流畅的视频,这些应用的效果都会受到影响。因此,论文所要解决的视频生成质量问题是一个重要且具有广阔应用前景的课题。

03

图片+音频秒变视频!西交大开源SadTalker:头、唇运动超自然,中英双语全能,还会唱歌

---- 新智元报道   编辑:LRS 【新智元导读】让图片配合你的音频出演,配套sd-webui插件已发布! 随着数字人概念的火爆、生成技术的不断发展,让照片里的人物跟随音频的输入动起来也不再是难题。 不过目前「通过人脸图像和一段语音音频来生成会说话的人物头像视频」仍然存在诸多问题,比如头部运动不自然、面部表情扭曲、视频和图片中的人物面部差异过大等问题。 最近来自西安交通大学等的研究人员提出了SadTalker模型,在三维运动场中进行学习从音频中生成3DMM的3D运动系数(头部姿势、表情),并使用一

01
领券