vid2vid 视频到视频转换vid2vid

iOSDevLog

发布于 2018-08-22 14:15:30

3.1K00

代码可运行

文章被收录于专栏：iOSDevLogiOSDevLog

运行总次数：0

代码可运行

vid2vid

teaser.gif

Pytorch实现了我们的高分辨率（例如2048x1024）逼真的视频到视频转换方法。

[项目] [YouTube]

论文将于8月20日在Arxiv上发布。

Pytorch实现了我们的高分辨率（例如，2048x1024）逼真的视频到视频转换方法。它可用于将语义标签贴图转换为照片般逼真的视频，合成人们从边缘地图谈话，或从姿势生成人体。

视频到视频合成 Video-to-Video Synthesis Ting-Chun Wang1, Ming-Yu Liu1, Jun-Yan Zhu2, Guilin Liu1, Andrew Tao1, Jan Kautz1, Bryan Catanzaro1 1NVIDIA Corporation, 2MIT CSAIL In arXiv, 2018.

视频到视频翻译

标签到街景结果

city_change_styles.gif

city_change_labels.gif

边框到面部结果

face.gif

face_multiple.gif

姿势到身体的结果

pose.gif

先决条件

Linux或macOS
Python 3
NVIDIA GPU + CUDA cuDNN

入门

安装

从https://pytorch.org安装PyTorch和依赖项
安装python dominate和requests库。

pip install dominate requests

克隆这个仓库：

git clone https://github.com/NVIDIA/vid2vid
cd vid2vid

测试

我们在datasets文件夹中包含一个示例Cityscapes视频。
首先，通过运行从https://github.com/NVIDIA/flownet2-pytorch下载并编译FlowNet2 repo的快照python scripts/download_flownet2.py。
请通过以下方式下载预先培训的Cityscapes模型：

python scripts/download_models.py

要测试模型（bash ./scripts/test_2048.sh）：

#!./scripts/test_2048.sh
python test.py --name label2city_2048 --loadSize 2048 --n_scales_spatial 3 --use_instance --fg --use_single_G

测试结果将保存到./results/label2city_2048/test_latest/index.html中。

我们还提供了使用1 GPU训练的较小型号，在1024 x 512分辨率下产生稍差的性能。
- 请下载模型
python scripts/download_models_g1.py
- 要测试模型（bash ./scripts/test_1024_g1.sh）：
#!./scripts/test_1024_g1.sh python test.py --name label2city_1024_g1 --loadSize 1024 --n_scales_spatial 3 --use_instance --fg --n_downsample_G 2 --use_single_G
您可以在scripts目录中找到更多示例脚本。

数据集

我们使用Cityscapes数据集作为示例。要在完整数据集上训练模型，请从官方网站下载（需要注册）。
我们应用预先训练的分割算法来获得相应的语义地图（train_A）和实例地图（train_inst）。
请将获得的图像放在datasets文件夹下，方法与提供示例图像的方式相同。

训练

首先，通过运行下载FlowNet2检查点文件python scripts/download_models_flownet2.py。
使用8个GPU进行培训：
- 我们采用从粗到精的方法，将分辨率从512 x 256,1024 x 512到2048 x 1024逐步增加。
- 以512 x 256分辨率训练模型（bash ./scripts/train_512.sh）
#!./scripts/train_512.sh python train.py --name label2city_512 --gpu_ids 0,1,2,3,4,5,6,7 --n_gpus_gen 6 --n_frames_total 6 --use_instance --fg
- 以1024 x 512分辨率训练模型（必须首先训练512 x 256）（bash ./scripts/train_1024.sh）：
#!./scripts/train_1024.sh python train.py --name label2city_1024 --loadSize 1024 --n_scales_spatial 2 --num_D 3 --gpu_ids 0,1,2,3,4,5,6,7 --n_gpus_gen 4 --use_instance --fg --niter_step 2 --niter_fix_global 10 --load_pretrain checkpoints/label2city_512
要查看培训结果，请查看中间结果./checkpoints/label2city_1024/web/index.html。如果安装了TensorFlow，则可以./checkpoints/label2city_1024/logs通过添加--tf_log到培训脚本来查看TensorBoard登录。
使用单个GPU进行培训：
- 我们使用多个GPU训练我们的模型。为方便起见，我们为单GPU用户提供了一些样本培训脚本（XXX_g1.sh），分辨率高达1024 x 512。再次采用从粗到细的方法（256 x 128,512 x 256,1024 x 512）。使用这些脚本无法保证性能。
- 例如，使用单个GPU训练256 x 128视频（bash ./scripts/train_256_g1.sh）
#!./scripts/train_256_g1.sh python train.py --name label2city_256_g1 --loadSize 256 --use_instance --fg --n_downsample_G 2 --num_D 1 --max_frames_per_gpu 6 --n_frames_total 6

全速（2k x 1k）分辨率训练

要以全分辨率（2048 x 1024）训练图像，需要8个GPU，至少24G内存（bash ./scripts/train_2048.sh）。如果只有具有12G / 16G内存的GPU可用，请使用脚本./scripts/train_2048_crop.sh，该脚本将在训练期间裁剪图像。此脚本无法保证性能。

使用您自己的数据集进行培训

如果您的输入是标签贴图，请生成标签贴图，这些贴图是单通道，其像素值对应于对象标签（即0,1，...，N-1，其中N是标签的数量）。这是因为我们需要从标签贴图生成单热矢量。请--label_nc N在培训和测试期间使用。
如果你的输入不是一个标签映射，请注明--label_nc 0和--input_nc N其中N是（默认值是3 RGB图像）输入通道的数量。
预处理的默认设置是scaleWidth，opt.loadSize在保持纵横比的同时，将所有训练图像的宽度缩放到（1024）。如果您需要其他设置，请使用该--resize_or_crop选项进行更改。例如，scaleWidth_and_crop首先调整图像的大小以使其具有宽度opt.loadSize，然后对大小进行随机裁剪(opt.fineSize, opt.fineSize)。crop跳过调整大小步骤，仅执行随机裁剪。scaledCrop在重新训练原始宽高比时裁剪图像。如果您不想进行任何预处理，请指定none，除了确保图像可以被32整除之外什么都不做。

引文

如果您发现这对您的研究有用，请使用以下内容。

@article{wang2018vid2vid,
  title={Video-to-Video Synthesis},
  author={Ting-Chun Wang and Ming-Yu Liu and Jun-Yan Zhu and Guilin Liu and Andrew Tao and Jan Kautz and Bryan Catanzaro},  
  journal={arXiv},
  year={2018}
}

致谢

这段代码大量借用了pytorch-CycleGAN-and-pix2pix和pix2pixHD。

原文：https://github.com/NVIDIA/vid2vid

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2018.08.20 ，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

其他

登录后参与评论

0 条评论

热度

vid2vid 视频到视频转换vid2vid

vid2vid 视频到视频转换vid2vid

vid2vid

[项目] [YouTube]

视频到视频翻译

先决条件

入门

安装

测试

数据集

训练

全速（2k x 1k）分辨率训练

使用您自己的数据集进行培训

更多培训/测试详情

引文

致谢

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐