言有三新书来袭，全面系统性地讲解生成对抗网络GAN原理与实践

用户1508658

发布于 2023-02-06 11:16:22

4640

发布于 2023-02-06 11:16:22

文章被收录于专栏：有三AI有三AI

各位同学，今天有三来发布新书了，本次新书为生成对抗网络方向，名为《生成对抗网络GAN：原理与实践》，本次书籍为我与师弟郭晓洲共同写作，也是第一本有三与人合著的书籍。

前言

这不是笔者写的第一本书，也不会是最后一本书，但可能是笔者创作时间最长的一本书，之前写过几本书后就变得特别忙碌，以至于本书的写作时间超过了一年。以前写的几本书，都是笔者一个人写的，工作量特别大，而本书是我和实验室的博士师弟一起完成的。师弟本科是物理专业，数学基础比我好，读博时做了GAN以及语音处理方面的工作，所以主要负责本书基础部分和语音应用部分的撰写，而我则负责GAN在计算机视觉领域中的各类典型框架和应用部分。

说起和GAN的结缘，要回溯到2015年。那时候我在360人工智能研究院做算法工程师，刚接触深度学习不久，处于快速学习的阶段，有一天翻到了关于GAN的内容，觉得特别新奇。但在360工作的时候特别忙，没有机会去深入研究和持续关注GAN，而且那时候的GAN离应用落地确实还有很大的距离。

2017年，我换工作到了陌陌深度学习实验室，其早期落地的产品关于GAN的内容其实不多，但是产品对GAN的需求越来越大，比如超分辨率、人像美颜与美妆，所以我开始真正重视起GAN，有时间都会关注下GAN的工作，慢慢地整理和输出了一些GAN相关的内容，包括博客和视频课程。那两年，每年都有上千篇与GAN相关的文章出现，要挖掘出好的工作其实很头疼。一方面研究GAN理论的文章特别多，看起来很费脑力。另一方面，千奇百怪的应用都开始出现，好像每一个领域GAN都能插一脚，给人一种一天看1篇论文都不够的感觉。

就这样，我大概在焦虑中追踪了两年GAN相关的内容，直到2019年左右，我发现GAN在业界突然开始大规模商业化。诸如人脸技术中的美妆、风格化、换脸，到图像质量提升技术中的超分辨，GAN已经不再是“玩具式“算法，而是真正成为很多领域的基础技术。在这段时间，我也同时在创作《深度学习之人脸图像处理》和《深度学习之摄影图像处理》书籍，其中也穿插了许多GAN的内容。但因为不是专注于讲解GAN，所以许多基础知识只能略讲，基础不好的读者不太容易掌握。

后来，杨福川编辑邀请我写一本关于GAN的书，正好师弟郭晓洲在我们平台创作了一些GAN的理论基础文章，所以我就邀请师弟扬长补短，一起开始了本书的创作。在创作完这本书之后（其实内容已经不少了），我仍然觉得意犹未尽，因为GAN可以输出的内容真的是太多了。本书权当是一个开篇，它适合所有对GAN技术感兴趣的朋友阅读。后续我们应该还会创作更多相关图书，敬请大家期待。

By 言有三

2017年，我在研究生进修期间首次接触到了GAN，那段时间正是GAN研究热度高涨之时。可能是由于物理学本科出身，我对相关的模型、理论有一些“执念”，总希望把它每个细节、每个设计逻辑都理解透彻。在学习过程中，我发现GAN的涉及面非常宽泛，因而做了大量的学习记录。彼时，龙鹏师兄（即言有三）正在做AI知识公众号，我觉得非常有趣，便顺带将自己积累的一部分内容分享到了公众号。之后，龙鹏师兄收到杨福川编辑的GAN图书写作邀请，我恰好对GAN的理论部分比较熟悉，就自然而然地参与其中。通过本书，我希望能帮助更多的人认识GAN。另外，由于笔者自身水平的限制，书中难免存在疏漏，敬请广大读者批评指正。

By 郭晓洲

Generative Adversarial Networks（中文名生成对抗网络，简称GAN）自从被提出来后，其发展就非常迅猛，几乎已经被应用于所有CNN可以使用的领域，应用涉及图像与视频生成，数据仿真与增强，各种各样的图像风格化任务，人脸与人体图像编辑，图像质量提升。

学好GAN算法，对于计算机视觉领域从业，完全是有必要的。我们公众号输出过非常多的GAN相关资源，包括几十篇理论与实战技术文章，免费与付费的视频课，知识星球中的GAN模型原理解读专题。本次书籍出版，可作为我们最系统的一个总结。

本书内容

这是我今年唯一会出版的一本书，如书名《生成对抗网络GAN：原理与实践》，这是一本系统性地讲解GAN理论、模型、常见问题，并为视觉和语音领域的大部分应用场景提供GAN解决方案和综合实践的书，下面是两位作者的简单介绍。

全书正文约340页，共计12章，目录如下：

第1章生成模型

本章介绍了无监督生成模型的基本理论，包括无监督生成模型的研究范畴和常用的生成模型原理，其中包括以完全可见置信网络、流模型、变分自编码器、玻尔兹曼机为代表的显式生成模型和以GAN为代表的隐式生成模型。

第2章目标函数优化

本章介绍了GAN中目标函数及其数学原理，包括原始GAN，LSGAN，EBGAN，fGAN，WGAN，LS-GAN，WGAN-GP，IPM，相对GAN以及BEGAN等内容。

第3章训练技巧

本章介绍GAN在训练中的常见问题和相应解决方案，其中常见问题包括梯度消失问题，目标函数不稳定问题以及模式崩溃问题，解决方案包括退火噪声，谱正则化，一致优化，unrolledGAN，DRAGAN，MADGAN等内容。

第4章评价指标与可视化

本章介绍了GAN的评价指标和可视化，其中评价指标包括IS，FID，MMD，Wasserstein距离，最邻近分类器，NRDS等内容，可视化部分介绍了GAN Lab工具。

第5章图像生成

本章介绍了图像生成GAN的各类模型与应用，包括全卷积GAN，条件GAN，多尺度GAN，属性GAN，多判别器与生成器GAN，数据增强与仿真GAN，并进行了DCGAN与StyleGAN图像生成任务的实践。

第6章图像翻译

本章介绍了图像翻译GAN的各类模型与应用，包括有监督图像翻译GAN，无监督图像翻译GAN，多域图像翻译GAN等，并进行了Pix2Pix图像上色任务的实践。

第7章人脸图像编辑

本章介绍了人脸图像编辑GAN的各类模型与应用，包括人脸表情编辑GAN、人脸年龄编辑GAN、人脸姿态编辑GAN、人脸风格化编辑GAN、人脸换脸编辑GAN等，并进行了基于StyleGAN的人脸图像重建与属性编辑任务的实践。

第8章图像质量增强

本章介绍了图像质量增强GAN的各类模型与应用，包括图像去噪GAN，图像去模糊GAN，图像色调映射GAN，图像超分辨GAN，图像修复GAN等，并进行了基于SRGAN的人脸图像超分辨任务的实践。

第9章三维图片与视频生成

本章介绍了三维图片与视频生成GAN的各类模型与应用，包括三维图片生成GAN，视频生成与预测GAN等。

第10章通用图像编辑

本章介绍了更通用的图像编辑GAN框架，包括深度编辑GAN，图像融合GAN，交互式图像编辑GAN等。

第11章对抗攻击

本章介绍了对抗攻击以及GAN在其中的应用，包括对抗攻击的常见范式，用于攻击的Perceptual-Sensitive GAN，Natural GAN，AdvGAN等，用于防御的APEGAN，DefenseGAN等，并进行了对抗工具包AdvBox的实战。

第12章语音信号处理

本章介绍了GAN在语音信号处理中的实战应用，包括用于语音增强的SEGAN，用于语音风格转换的CycleGAN-VC，用于语音生成的WaveGAN。

本书内容主体使用黑白印刷，部分图片使用彩图印刷，部分彩图如下：

详细内容请大家直接阅读书籍，本书是业界系统性地讲解生成对抗网络原理与实践的书籍，与其他同类书籍相比，本书内容更加深入与充分。

本书有非常全面的理论讲解与非常丰富的应用实战，前面4章介绍理论，后8章讲解应用，循序渐进，内容篇幅安排充实。理论部分有助于作者夯实基础，应用部分介绍大量经典的模型与典型案例，既有深度，又非常实用。本书所有实战代码统一使用Pytorch框架，适合新手使用学习。

本书内容邀请了业内资深专家进行阅读，并获得了推荐，推荐语如下：

IEEE Fellow 前阿里巴巴达摩院城市大脑实验室主任华先胜

作者对生成对抗网络的原理和实践做了非常详细的介绍和解读，不仅仅介绍了已有的、常见的GAN模型在图像、视频、语音、深度学习的对抗攻击和防御等领域解决实际问题的实践，还花不少笔墨介绍了生成对抗网络框架的一些理论基础，可以帮助学习者不仅知其然还能知其所以然；不仅能了解常见GAN算法的设计思路和方法，还有望能举一反三，设计出自己的GAN，解决众多领域中尚未解决的问题。

中国科学院自动化研究所模式识别国家重点实验室主任/研究员刘成林

生成对抗网络（GAN）是近年来深度学习领域研究和应用的最大热点之一，刚出现时即以其构思新颖奇妙而受到广泛关注，其后模型和算法创新成果大量涌现，在图像生成和风格转换等应用中不断取得惊艳的效果，并扩展到多模态数据应用，甚至上升到艺术创作的层次。然而，GAN的实现和应用、创新对研究开发者而言并不容易，需要对原理、算法有深入理解并掌握一些实现技巧。本书正好满足了深度学习研究开发者在这方面的需求。该书以由浅入深的原理算法介绍和程序代码、丰富的应用例子为读者学习、掌握、应用、创新GAN提供了有益指导。

中国科学院半导体研究所高速电路神经网络实验室研究员鲁华祥

生成对抗网络（GAN）是学术界和工业界都广泛重视的一类神经网络，言有三和郭晓洲在GAN的理论及应用研究方面有扎实的基础和丰富的经验，他们在本书中系统地总结了GAN的知识体系，透彻地介绍了典型应用案例。本书兼备理论和实践价值，其内容完整、丰富、专业，值得相关从业人员学习和参考。

华中科技大学人工智能与自动化学院教授/博士生导师谭毅华

生成对抗网络已经成为深度学习领域非常重要的内容，在数据增强、图像翻译和视频生成等得到了广泛的应用，并产生了实际应用价值。本书深入剖析了生成对抗网络的基本原理，详细阐述了优化和训练技巧，全面介绍了生成对抗网络的应用，配以大量的应用实例和代码以加深对知识的理解。全书理论分析透彻、应用知识浅显易懂，适合人工智能从业人员阅读了解生成对抗网络理论及其工程实践。

更多GAN的拓展学习资料

由于作者的水平和时间有限，书籍出版的时间滞后，以及GAN技术发展非常迅速，本书无法囊括所有最新内容，因此在我们公众号还有许多拓展的GAN学习资料。

1、相关技术文章，包括GAN的理论，模型，论文推荐，下面是其中部分节选内容

【完结】12篇GAN的优化文章大盘点，浓浓的数学味儿

【GAN优化】长文综述解读如何定量评价生成对抗网络(GAN)

【GAN优化外篇】详解生成模型VAE的数学原理

【生成模型】关于无监督生成模型，你必须知道的基础

【生成模型】极大似然估计，你必须掌握的概率模型

【生成模型】解读显式生成模型之完全可见置信网络FVBN

【生成模型】简述概率密度函数可处理流模型

【生成模型】浅析玻尔兹曼机的原理和实践

【模型解读】历数GAN的5大基本结构

【每周CV论文推荐】初学GAN必须要读的文章

【每周CV论文推荐】GAN与VAE的结合，有哪些必读的论文？

【每周CV论文推荐】初学视频分类与行为识别有哪些值得阅读的论文？

【每周CV论文推荐】初学视觉注意力机制有哪些值得阅读的论文？

【每周CV论文推荐】StyleGAN人脸属性编辑有哪些经典论文需要阅读

【每周CV论文推荐】初学基于GAN的视频生成有哪些经典论文需要阅读

【每周CV论文推荐】初学基于GAN的三维图像生成有哪些经典论文需要阅读

【每周CV论文推荐】基于GAN的图像数据增强有哪些经典论文值得阅读

【每周CV论文推荐】GAN如何用于目标检测模型提升性能？

【每周CV论文推荐】GAN如何用于图像分割模型提升性能？

【每周CV论文推荐】初学基于GAN的图像语义编辑，需要阅读哪些论文？

【每周GAN论文推荐】最经典与常见的GAN目标函数设计汇总

【每周CV论文推荐】GAN在医学图像生成与增强中的典型应用

【每周CV论文推荐】基于GAN的对抗攻击，适合阅读那些文章入门？

【每周CV论文推荐】GAN在医学图像分割中的典型应用

【每周CV论文推荐】GAN在自动驾驶视觉任务中的典型应用

【每周CV论文推荐】基于GAN的图像降噪值得阅读的文章

【每周CV论文推荐】基于GAN的图像对比度与色调映射增强值得阅读的文章

【每周CV论文推荐】基于GAN的图像超分辨值得阅读的文章

【每周CV论文推荐】基于GAN的图像修复值得阅读的文章

2、视频课程，包括GAN理论讲解，图像生成GAN原理与实战，图像翻译GAN原理与实战，图像增强GAN原理与实战，人脸属性编辑原理与实战，以及其他各类GAN项目实战，下面是部分节选

【视频课】永久免费课程！如何掌握好深度生成模型与GAN的基础理论知识

【视频课】CV必学，超6小时，2大模块，循序渐进地搞懂GAN图像生成！

【视频课】CV必学，超7小时，3大模块，3大案例，掌握图像翻译与风格化GAN核心技术！

【视频课】超8小时，5大模块，掌握基于GAN的图像增强应用（降噪色调映射去模糊超分辨修复）

【视频课】超10小时，3大模块，掌握深度学习人脸属性编辑算法理论与实践

更多学习资料，大家可以关注本公众号进行检索。

如何获得本书

现在是时候来谈谈如何获得本书了，本书定价99元，当前有3种方法可以获得。

(1) 在有三AI小鹅通知识店铺购买【专属签名版书籍】（签章为红黑色，随机发货），购买完成后【凭订单记录联系有三本人微信Longlongtogo】，发送收货地址。默认配套有今年最新的CV修行之路版学习扑克牌1副（只有少量现货，售完后将更改价格），不带则购买后联系有三减免5元。