Frechet Inception Distance (FID)是否考虑颜色？ - 腾讯云开发者社区

您找到你想要的搜索结果了吗？

是的

没有找到

谷歌大脑发布GAN全景图：看百家争鸣的生成对抗网络

TF - GAN入门：TensorFlow 2.0 的轻量级 GAN 库

用于机器学习的软件库往往对研究成功至关重要，因此软件库的更新速率必须能够跟上机器学习研究发展的脚步。

史上最强GAN被谷歌超越！标注数据少用90%，造假效果却更逼真

难以抉择也正常，反正都是假的。上面的照骗，都是左边出自S³GAN，右边的出自BigGAN之手。

港中文博士提出首个基于Transformer的条件GAN：成像质量仍不如CNN

Transformer不仅在自然语言表达方面表现出色，在计算机视觉方面的潜力也被挖掘出来，不断称霸各大CV榜单。

SinGAN: Learning a Generative Model from a Single Natural Image

我们介绍了SinGAN，这是一个无条件的生成模型，可以从单一的自然图像中学习。我们的模型经过训练，可以捕捉到图像中斑块的内部分布，然后能够生成高质量的、多样化的样本，这些样本承载着与图像相同的视觉内容。SinGAN包含一个完全卷积GAN的金字塔，每个负责学习图像不同比例的斑块分布。这允许生成任意大小和长宽比的新样本，这些样本具有显著的可变性，但同时保持训练图像的全局结构和精细纹理。与以前的单一图像GAN方案相比，我们的方法不限于纹理图像，也不是有条件的（即它从噪声中生成样本）。用户研究证实，生成的样本通常被混淆为真实的图像。我们说明了SinGAN在广泛的图像处理任务中的效用。

这篇文章要在GANs圈里C位出道了（内附源码与资源链接）

【导读】生成对抗网络(GANs) 是一类深度生成模型，旨在以无监督方式来学习目标的分布。虽然这类模型已成功应用并解决很多问题，但由于需要大量超参数微调、神经网络结构的设计及众多训练技巧等原因，导致GANs 的训练一直以来是个很大的挑战。为了解决GANs 的量化标准以及对其失败模式分析等问题，许多研究者提出了一系列损失函数、正则化方法、归一化及不同的网络结构来解决GANs 模型的量化标准问题并试图从其失败模式中找到有效的解决方案。本文中，我们将从实践的角度清醒地认识当前GANs 的研究现状。通过复现一些性能最佳的模型，来探索当前整个 GANs 的研究情况。此外，我们进一步讨论了GANs 模型一些常见的陷阱(pitfall) 及复现问题。最后，我们在GitHub 开源了本文的研究项目，并在TensorFlow Hub 上提供了预训练的模型。

Transformer再胜Diffusion！谷歌发布新一代文本-图像生成模型Muse：生成效率提升十倍

---- 新智元报道编辑：LRS 【新智元导读】谷歌带着更强大的图像生成模型来了，依然Transformer！最近谷歌又发布了全新的文本-图像生成Muse模型，没有采用当下大火的扩散（diffusion）模型，而是采用了经典的Transformer模型就实现了最先进的图像生成性能，相比扩散或自回归（autoregressive）模型，Muse模型的效率也提升非常多。论文链接：https://arxiv.org/pdf/2301.00704.pdf 项目链接：https://muse-mod

CVPR 2019：微软最新提出ObjGAN，输入一句话秒生成图片

近期，由纽约州立大学奥尔巴尼分校、微软研究院和京东AI研究院合作的一篇文章就可以实现这个需求：只需要输入一句话，就可以生成图片！

史上最强图像生成器BigGAN变身DeepGAN？四倍深度实现更强效果

BigGAN 在去年 9 月一经提出即引起了大量关注，被称为「史上最强 GAN 图像生成器」，其生成图像的目标和背景都高度逼真、边界自然，并且图像插值每一帧都相当真实。

CVPR2023 | 使用条件生成器进行多重真实感图像压缩

，可以获得高感知质量的解码图像。这可以使得在低码率条件下解码的图片能使人的感知更愉悦，同时生成器也不会影响图像的真实性。通过本文的方法，"失真-感知" 得到权衡，在高感知质量条件下有更低的图像损失，在低图像损失下有更好的感知质量。

涂鸦一键变逼真照片，我被自己的绘画技巧惊呆了 | 英伟达&朱俊彦CVPR新研究

一条黑色弧线从半空延伸而下，划过半个圈。继而自己填满，俨然一座岩山，就这样落在水中间。

【机器学习圈子里的裙带关系】学术“朋友圈”罪与罚

来源：Reddit 作者：闻菲【新智元导读】或许你以为搞学术做研究可以不受世俗干扰，殊不知有人在的地方就有江湖。在学术圈，跟对人或许跟做好事情一样重要。但是，这样做的同时，我们是否背离科学的本质，渐行渐远呢？机器学习领域的裙带关系：不知名大学的好论文 VS 顶级实验室的好论文今天Reddit发出了一个讨论，有用户指出他观察到的奇怪现象：这可能是个带点争议性的话题。我最近注意到领域里存在很多裙带关系，我觉得需要指出一下。今年NIPS的深度强化学习研讨会（Deep RL Symposium）

首个超大规模GAN模型！生成速度比Diffusion快20+倍，0.13秒出图，最高支持1600万像素

---- 新智元报道编辑：LRS 【新智元导读】GAN模型也有变大的潜力！ AIGC爆火的背后，从技术的角度来看，是图像生成模型的架构发生了巨大的变化。随着OpenAI发布DALL-E 2，自回归和扩散模型一夜之间成为大规模生成模型的新标准，而在此之前，生成对抗网络（GAN）一直都是主流选择，并衍生出StyleGAN等技术。从GAN切换到扩散模型的架构转变也引出了一个问题：能否通过扩大GAN模型的规模，比如说在 LAION 这样的大型数据集中进一步提升性能吗？最近，针对增加StyleGA

同时学习流形及流形分布的Injective Flows

Lifting Architectural Constraints of Injective Flows v4 2024.04

Large scale GAN training for high fidelity natural image synthesis解读

尽管最近几年在生成式图像建模上取得了进步，但从ImageNet这样的复杂数据集生成高分辨率、多样化的图像仍然是一个具有挑战性的工作。为了达到这一目标，本文作者训练了到目前为止最大规模的生成对抗网络（BigGAN），并对这种规模下的网络在训练时的不稳定性进行了研究。作者发现，将正交正则化用于生成器网络能够起到很好的效果，通过对隐变量的空间进行截断处理，能够在样本的真实性与多样性之间进行精细的平衡控制。本文提出的方法在类别控制的图像生成问题上取得了新高。如果用ImageNet的128x128分辨率图像进行训练，BigGAN模型生成图像的Inception得分达到了166.3，FID为9.6。

Map Matching-轨迹相似性度量算法-Discrete Frechet Distance

Fréchet distance(弗雷歇距离)是法国数学家Maurice René Fréchet在1906年提出的一种路径空间相似性计算方法。

BigGAN论文解读

《Large scale GANtraining for high fidelity natural image synthesis》这篇文章对训练大规模生成对抗网络进行了实验和理论分析，通过使用之前提出的一些技巧，如数据截断、正交正则化等，保证了大型生成对抗网络训练过程的稳定性。本文训练出的模型在生成数据的质量方面达到了前所未有的高度，远超之前的方法。作者对生成对抗网络训练时的稳定性进行了分析，借助于矩阵的奇异值分析。此外，还在生成数据的多样性与真实性之间做了折中。总体来说，本文的工作相当扎实，虽然没有大的方法上的创新，但却取得了非常好的效果，对稳定性的分析也有说服力。

PyTorch 零基础入门 GAN 模型之评价指标

在上一篇文章中，我们初步介绍了 GAN 的原理以及如何使用 MMGeneration 训练 DCGAN 模型。

用一张草图创建GAN模型，新手也能玩转，朱俊彦团队新研究入选ICCV 2021

机器之心报道编辑：杜伟、陈 CMU 助理教授朱俊彦团队的最新研究将 GAN 玩出了花，仅仅使用一个或数个手绘草图，即可以自定义一个现成的 GAN 模型，进而输出与草图匹配的图像。相关论文已被 ICCV 2021 会议接收。深度生成模型（例如 GAN）强大之处在于，它们能够以最少的用户努力合成无数具有真实性、多样性和新颖的内容。近年来，随着大规模生成模型的质量和分辨率的不断提高，这些模型的潜在应用也不断的在增长。然而，训练高质量生成模型需要高性能的计算平台，这使得大多数用户都无法完成这种训练。此外，训

【GAN优化】长文综述解读如何定量评价生成对抗网络(GAN)

欢迎大家来到《GAN优化》专栏，这里将讨论GAN优化相关的内容，本次将和大家一起讨论GAN的评价指标。

ICCV 2023: StyleInV 论文解读

这篇论文所探讨的核心问题是如何生成高质量、逼真的合成视频。视频生成是一个非常重要且具有挑战性的任务，因为视频序列具有强烈的时间依赖性，如果不能很好地建模这种时序依赖，生成的视频就会出现不连贯、不自然的问题。然而，在长时间跨度内的依赖关系对许多模型来说仍然是个难点。所以该论文提出了时间长短记忆机制，旨在解决其他方法在捕捉和利用长距离时序依赖上存在的困难。该机制的提出对视频生成领域意义重大，因为高质量的合成视频可以应用于许多领域，如自动驾驶的模拟、人机交互的虚拟环境、影视制作等。如果不能生成逼真流畅的视频，这些应用的效果都会受到影响。因此，论文所要解决的视频生成质量问题是一个重要且具有广阔应用前景的课题。

ICLR 2019评审结果出炉！一文看全平均8分论文

至于录取率，目前还没有官方公布。从ICLR 2018的情况来看，平均分达到6.57可以被接收，Top 33%的论文可以被接收为poster或talk。但今年的投稿量比去年多得多，去年是996篇，因此预计接收比率会降低。

ICLR 2019评审结果出炉！优质论文抢先看！

深度学习500问——Chapter07：生成对抗网络（GAN）（2）

最常见的评价GAN的方法就是主观评价。主观评价需要花费大量人力物力，且存在以下问题：

论文推荐：所有 GAN 的性能都一样吗？

正如您现在听说的那样，生成对抗网络是一种能够从生成器和鉴别器之间的竞争中学习分布的框架。生成器学习生成希望与真实数据无法区分的样本，而鉴别器学习分类给定图像是真实的还是虚假的。自 GAN 发明以来，它们经历了各种改进，被认为是用于各种问题的强大工具，尤其是在生成和重建任务中。

学界 | 六种GAN评估指标的综合评估实验，迈向定量评估GAN的重要一步

作者：Qiantong Xu、Gao Huang、Yang Yuan、Chuan Guo、Yu Sun、Felix Wu、Kilian Weinberger

Diffusion Models 10 篇必读论文（3）Classifier-guided Diffusion Model

目前生成模型有好几种，包括 GANs 和 likelihood-based models 等，目前在生成任务上，依然是 GANs 取得最好的效果，但 GANs 难以训练和扩展，限制了其应用。虽然 diffusion model 近几年有了大的发展，但在生成任务上，比较 GANs 还是略逊一筹。作者认为 diffusion model 在目前还没有被深度研究优化，于是对目前的 diffusion model 进行大量的消融优化，并借鉴 conditional GANs 来训练 conditional diffusion model，并使用分类信息来引导生成过程，大幅度提到了 diffusion model 的性能，并超越了 GANs。

Ian Goodfellow谈GANs论文评审：有这些迹象的论文要怀疑

AI 科技评论按：谷歌大脑研究员、「GANs」之父、《Deep Learning》课本作者之一的 Ian Goodfellow 自上次的线上直播里回答了网友们提出的种种问题之后，昨天也在 Twitter 上发表了很多关于 GANs 论文评审、GANs 研究现状的想法。作为一直以来投入了大量精力在 GANs 上的研究者，以及作为参与了许多论文评审的审稿人， Ian Goodfellow 自然为 GANs 的进步感到开心，但他现在也同样对领域内的现状有诸多忧虑。AI 科技评论把相关内容整理如下。「越是好论

图片+音频秒变视频！西交大开源SadTalker：头、唇运动超自然，中英双语全能，还会唱歌

---- 新智元报道编辑：LRS 【新智元导读】让图片配合你的音频出演，配套sd-webui插件已发布！随着数字人概念的火爆、生成技术的不断发展，让照片里的人物跟随音频的输入动起来也不再是难题。不过目前「通过人脸图像和一段语音音频来生成会说话的人物头像视频」仍然存在诸多问题，比如头部运动不自然、面部表情扭曲、视频和图片中的人物面部差异过大等问题。最近来自西安交通大学等的研究人员提出了SadTalker模型，在三维运动场中进行学习从音频中生成3DMM的3D运动系数（头部姿势、表情），并使用一

A.深度学习基础入门篇[二]：机器学习常用评估指标:AUC、mAP、IS、FID、Perplexity、BLEU、ROUGE等详解

A.深度学习基础入门篇二：机器学习常用评估指标:AUC、mAP、IS、FID、Perplexity、BLEU、ROUGE等详解

那么多GAN哪个好？谷歌大脑泼来冷水：都和原版差不多 | 论文

夏乙编译整理量子位出品 | 公众号 QbitAI 从2014年诞生至今，生成对抗网络（GAN）热度只增不减，各种各样的变体层出不穷。有位名叫Avinash Hindupur的国际友人建立了一个G

A.深度学习基础入门篇[二]：机器学习常用评估指标:AUC、mAP、IS、FID、Perplexity、BLEU、ROUGE等详解

机器学习的评价指标有精度、精确率、召回率、P-R曲线、F1 值、TPR、FPR、ROC、AUC等指标，还有在生物领域常用的敏感性、特异性等指标。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐