vid2vid 视频到视频转换vid2vid

vid2vid

teaser.gif

Pytorch实现了我们的高分辨率(例如2048x1024)逼真的视频到视频转换方法。

[项目] [YouTube]

论文将于8月20日在Arxiv上发布。

Pytorch实现了我们的高分辨率(例如,2048x1024)逼真的视频到视频转换方法。它可用于将语义标签贴图转换为照片般逼真的视频,合成人们从边缘地图谈话,或从姿势生成人体。

视频到视频合成 Video-to-Video Synthesis Ting-Chun Wang1, Ming-Yu Liu1, Jun-Yan Zhu2, Guilin Liu1, Andrew Tao1, Jan Kautz1, Bryan Catanzaro1 1NVIDIA Corporation, 2MIT CSAIL In arXiv, 2018.

视频到视频翻译

  • 标签到街景结果

city_change_styles.gif

city_change_labels.gif

  • 边框到面部结果

face.gif

face_multiple.gif

  • 姿势到身体的结果

pose.gif

先决条件

  • Linux或macOS
  • Python 3
  • NVIDIA GPU + CUDA cuDNN

入门

安装

pip install dominate requests
  • 克隆这个仓库:
git clone https://github.com/NVIDIA/vid2vid
cd vid2vid

测试

  • 我们在datasets文件夹中包含一个示例Cityscapes视频。
  • 首先,通过运行从https://github.com/NVIDIA/flownet2-pytorch下载并编译FlowNet2 repo的快照python scripts/download_flownet2.py
  • 请通过以下方式下载预先培训的Cityscapes模型:
python scripts/download_models.py
  • 要测试模型(bash ./scripts/test_2048.sh):
#!./scripts/test_2048.sh
python test.py --name label2city_2048 --loadSize 2048 --n_scales_spatial 3 --use_instance --fg --use_single_G

测试结果将保存到./results/label2city_2048/test_latest/index.html中。

  • 我们还提供了使用1 GPU训练的较小型号,在1024 x 512分辨率下产生稍差的性能。
    • 请下载模型

    python scripts/download_models_g1.py

    • 要测试模型(bash ./scripts/test_1024_g1.sh):

    #!./scripts/test_1024_g1.sh python test.py --name label2city_1024_g1 --loadSize 1024 --n_scales_spatial 3 --use_instance --fg --n_downsample_G 2 --use_single_G

  • 您可以在scripts目录中找到更多示例脚本。

数据集

  • 我们使用Cityscapes数据集作为示例。要在完整数据集上训练模型,请从官方网站下载(需要注册)。
  • 我们应用预先训练的分割算法来获得相应的语义地图(train_A)和实例地图(train_inst)。
  • 请将获得的图像放在datasets文件夹下,方法与提供示例图像的方式相同。

训练

  • 首先,通过运行下载FlowNet2检查点文件python scripts/download_models_flownet2.py
  • 使用8个GPU进行培训:
    • 我们采用从粗到精的方法,将分辨率从512 x 256,1024 x 512到2048 x 1024逐步增加。
    • 以512 x 256分辨率训练模型(bash ./scripts/train_512.sh

    #!./scripts/train_512.sh python train.py --name label2city_512 --gpu_ids 0,1,2,3,4,5,6,7 --n_gpus_gen 6 --n_frames_total 6 --use_instance --fg

    • 以1024 x 512分辨率训练模型(必须首先训练512 x 256)(bash ./scripts/train_1024.sh):

    #!./scripts/train_1024.sh python train.py --name label2city_1024 --loadSize 1024 --n_scales_spatial 2 --num_D 3 --gpu_ids 0,1,2,3,4,5,6,7 --n_gpus_gen 4 --use_instance --fg --niter_step 2 --niter_fix_global 10 --load_pretrain checkpoints/label2city_512

  • 要查看培训结果,请查看中间结果./checkpoints/label2city_1024/web/index.html。如果安装了TensorFlow,则可以./checkpoints/label2city_1024/logs通过添加--tf_log到培训脚本来查看TensorBoard登录。
  • 使用单个GPU进行培训:
    • 我们使用多个GPU训练我们的模型。为方便起见,我们为单GPU用户提供了一些样本培训脚本(XXX_g1.sh),分辨率高达1024 x 512。再次采用从粗到细的方法(256 x 128,512 x 256,1024 x 512)。使用这些脚本无法保证性能。
    • 例如,使用单个GPU训练256 x 128视频(bash ./scripts/train_256_g1.sh

    #!./scripts/train_256_g1.sh python train.py --name label2city_256_g1 --loadSize 256 --use_instance --fg --n_downsample_G 2 --num_D 1 --max_frames_per_gpu 6 --n_frames_total 6

全速(2k x 1k)分辨率训练

  • 要以全分辨率(2048 x 1024)训练图像,需要8个GPU,至少24G内存(bash ./scripts/train_2048.sh)。如果只有具有12G / 16G内存的GPU可用,请使用脚本./scripts/train_2048_crop.sh,该脚本将在训练期间裁剪图像。此脚本无法保证性能。

使用您自己的数据集进行培训

  • 如果您的输入是标签贴图,请生成标签贴图,这些贴图是单通道,其像素值对应于对象标签(即0,1,...,N-1,其中N是标签的数量)。这是因为我们需要从标签贴图生成单热矢量。请--label_nc N在培训和测试期间使用。
  • 如果你的输入不是一个标签映射,请注明--label_nc 0--input_nc N其中N是(默认值是3 RGB图像)输入通道的数量。
  • 预处理的默认设置是scaleWidthopt.loadSize在保持纵横比的同时,将所有训练图像的宽度缩放到(1024)。如果您需要其他设置,请使用该--resize_or_crop选项进行更改。例如,scaleWidth_and_crop首先调整图像的大小以使其具有宽度opt.loadSize,然后对大小进行随机裁剪(opt.fineSize, opt.fineSize)crop跳过调整大小步骤,仅执行随机裁剪。scaledCrop在重新训练原始宽高比时裁剪图像。如果您不想进行任何预处理,请指定none,除了确保图像可以被32整除之外什么都不做。

更多培训/测试详情

  • 我们训练模型的方式如下:假设我们有8个GPU,4个用于生成器,4个用于鉴别器,我们想要训练28个帧。此外,假设每个GPU只能生成一个帧。第一个GPU生成第一个帧,并将其传递给下一个GPU,依此类推。在生成4帧之后,将它们传递给4个鉴别器GPU以计算损耗。然后,最后生成的帧变为输入到下一批,并且训练序列中的接下来的4帧被加载到GPU中。这重复7次(4 x 7 = 28),以训练所有28帧。
  • 一些重要的标志:
    • n_gpus_gen:用于生成器的GPU数量(而其他GPU用于鉴别器)。我们将发生器和鉴别器分成不同的GPU,因为在处理高分辨率时,即使一帧也不适合GPU。如果数字设置为-1,则没有分离,并且所有GPU都用于生成器和鉴别器(仅适用于低分辨率图像)。
    • n_frames_G:馈入发电机网络的输入帧数; 即,n_frames_G - 1是我们看过去的帧数。默认值为3(以前两帧为条件)。
    • n_frames_D:要馈入时间鉴别器的帧数。默认值为3。
    • n_scales_spatial:空间域中的比例数。我们从最粗规模一直到最精细的规模进行训练。默认值为3。
    • n_scales_temporal:时间鉴别器的标度数。最精细的比例采用原始帧速率的顺序。较粗略的比例在将帧n_frames_D馈送到鉴别器之前将帧子抽样一个因子。例如,如果n_frames_D = 3n_scales_temporal = 3,则鉴别器有效地看到27帧。默认值为3。
    • max_frames_per_gpu:训练期间一个GPU中的帧数。如果您的GPU内存可以容纳更多帧,请尝试将此数字设置得更大。默认值为1。
    • max_frames_backpropagate:丢失反向传播到先前帧的帧数。例如,如果此数字为4,则帧n上的丢失将反向传播到帧n-3。增加这个数字会略微改善性能,但也会导致训练不稳定。默认值为1。
    • n_frames_total:我们想要训练的序列中的总帧数。我们在训练期间逐渐增加这个数字。
    • niter_step:我们加倍了多少个时代n_frames_total。默认值为5。
    • niter_fix_global:如果这个数字不是0,那么在开始微调所有尺度之前,只训练这个时期的最佳空间尺度。
    • batchSize:一次训练的序列数。我们通常将batchSize设置为1,因为通常,一个序列足以占用所有GPU。如果要执行batchSize> 1,则目前仅batchSize == n_gpus_gen支持。
    • no_first_img:如果未指定,模型将假定给出第一帧并合成连续帧。如果指定,模型也将尝试合成第一帧。
    • fg:如果已指定,请使用前景 - 背景分离模型。
  • 对于其他flag,请参阅options/train_options.pyoptions/base_options.py查看所有训练flag; 看到options/test_options.pyoptions/base_options.py所有测试标志。

引文

如果您发现这对您的研究有用,请使用以下内容。

@article{wang2018vid2vid,
  title={Video-to-Video Synthesis},
  author={Ting-Chun Wang and Ming-Yu Liu and Jun-Yan Zhu and Guilin Liu and Andrew Tao and Jan Kautz and Bryan Catanzaro},  
  journal={arXiv},
  year={2018}
}

致谢

这段代码大量借用了pytorch-CycleGAN-and-pix2pixpix2pixHD

原文:https://github.com/NVIDIA/vid2vid

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CVer

资源 | GitHub超过2600星的TensorFlow教程,简洁清晰还不太难

最近,弗吉尼亚理工博士Amirsina Torfi在GitHub上贡献了一个新的教程,教程清晰简单,喜提2600颗星~

1462
来自专栏专知

【实战】最新Deep Learning with Keras图书加代码,教你从零开发一个复杂深度学习模型(附下载)

Deep Learning with Keras 这个代码库是《Deep Learning with Keras》的配套代码。它包含全书从头到尾所有所需要用到的...

5585
来自专栏AI科技评论

开发 | 训练一个AI给颜值打分,公平公正!

AI 科技评论按:本文作者灰灰,本文原载于作者的知乎专栏。授权转载。 机器学习是不是很无聊,用来用去都是识别字体。能不能帮我找到颜值高的妹子,顺便提高一下姿势水...

3395
来自专栏量子位

GitHub上大热的Deep Photo终于有TensorFlow版了!

王小新 编译整理 量子位 出品 | 公众号 QbitAI Prisma这个应用,你可能很熟悉。这是一个能将不同的绘画风格,迁移到照片中,形成不同艺术风格的图片。...

4046
来自专栏专知

TensorFlow 1.9 新增 tf.keras 官方入门教程(Keras与TF的深度集成)

【导读】Keras是深度学习框架中最适合工程化的框架之一,具有简单友好的接口。TensorFlow虽然功能强大,但是对于工程师来说,它的使用却十分的繁琐。好消息...

1.2K2
来自专栏机器之心

教程 | face-api.js:在浏览器中进行人脸识别的JavaScript接口

号外!号外!现在人们终于可以在浏览器中进行人脸识别了!本文将为大家介绍「face-api.js」,这是一个建立在「tensorflow.js」内核上的 java...

4582
来自专栏ATYUN订阅号

Keras和PyTorch的视觉识别与迁移学习对比

在上一篇文章中,我们简述了Keras和PyTorch的区别,旨在帮助你选择更适合你需求的框架。现在,我们进行实战进行。我们将让Keras和PyTorch互相较量...

9684
来自专栏机器学习人工学weekly

机器学习人工学weekly-2018/5/20

Dynamic Control Flow in Large-Scale Machine Learning

1096
来自专栏AI研习社

让AI给颜值打分?应该是最公正的裁判了!

机器学习是不是很无聊,用来用去都是识别字体。能不能帮我找到颜值高的妹子,顺便提高一下姿势水平。 FaceRank 基于 TensorFlow CNN 模型,提供...

4498
来自专栏逍遥剑客的游戏开发

边缘高亮效果(三)

1492

扫码关注云+社区

领取腾讯云代金券