你是否想过,只需要一行文字,就能本地生成高质量的视频,而且人人都能免费离线使用。
大家好,这里是木头人,今天我们来介绍一款真正突破视频生成极限的文生视频以及图生视频的免费开源AI大模型,它就是最近在Vbench榜单上排名第一的开源视频生成大模型——WAN 2.1。
生成视频的质量非常的高,SOTA性能相当震撼,因为在多个基准测试中,它已经超越现有的大多数开源同类产品,甚至可以和闭源的商业模型相媲美。
截止到目前为止,WAN 2.1在Vbench榜单上仍处于榜首位置。
我们来看一下,它目前的综合评分是86.2,然后它生成视频质量的分数大概是86.67,然后它对语义的理解能力,目前评分也是84.44。
这个分数,已经远超开源的混元大模型,现在混元的话它目前排到第12名,GEN3的话它是排到第13名,无论是一些开源的或者闭源模型,目前的分数都没它这么高。
关键是它不仅完全免费开源,而且生成视频的质量非常不错,不仅如此,它不需要昂贵的专业硬件,普通电脑就能本地运行,支持消费级的GPU。
像目前1.3B的模型,它只需要8.19G的显存就可以,也就意味着即使普通用户,也能轻松在消费级显卡上进行运行。
如果用的是RTX 4090,那么就不需要任何优化,就可以在4分钟内生成5秒的480P视频。
而且,WAN 2.1不仅可以文本转视频,甚至还可以通过图像转视频,支持视频编辑、文本转图像、视频转音频等等,可以为创作者带来无限可能。
因为它拥有强大的视频自解码器,可以高效编码和解码任意长度的1080P视频,并且完美保留时间信息,让AI生成的视频更加流畅、更加自然。
接下来我们就来说一下如何本地安装部署使用。
首先第一步,我们先来搞定这个文字转视频,到时你跟我一样,我们需要先下载一款ComfyUI一键安装包(https://pan.quark.cn/s/dbb9b6bf58ef
),它目前是支持Windows和Mac系统的。
打开以后接着点击下方有个下载按钮,我们看到第一个是Windows版本,第二个是Mac版本,根据自己情况下载就可以了,比如选择Windows版本。
打开以后点击下载,下载好以后,双击打开进行安装,我们先把这个ComfyUI客户端安装到电脑上。
安装好后,然后点开始按钮,这里需要注意的是,它下方是让我们选择GPU类型,因为当前我的电脑是英伟达显卡,如果你没有的话,那么你可以自定义,或者你通过CPU解码也是可以的,它是可以支持CPU模式的。
到时候你把它打开就可以了,所以这里值得一提的是,如果经常玩一些AI项目的,那么强烈建议选择N卡而不是A卡,因为目前当前主流的AI项目的,几乎都不支持A卡。
选择好英伟达显卡以后,然后我们点下一个,安装位置,我们选择默认就可以了,当然如果你C盘不是很大的,那么可以自定义到其它盘符也是可以的。
然后我们点下一个,这个是从现有安装进行迁移,如果你之前安装过的ComfyUI的,那么可以把之前旧的ComfyUI安装目录迁移过来也是可以的,如果没有,那么保持默认就可以了。
我们点击下一个,然后下面有个自动更新是否打开,根据自己需要进行选择,然后我们点击安装就可以了。
稍等一会,它首先会进行部署Python环境,当然如果你是N卡,它也会自动安装Pytorch还有CUDA引擎等等,它都会自动进行安装部署。
这个安装过程大概需要几分钟左右,自己耐心等待。
安装好以后,上面会显示当前缺少个模型,那么去安装一下,总共是将近2G左右,这样的话它会自动开始进行下载。
安装以后,先把它关闭掉,这样的话这个ComfyUI客户端我们就安装成功了。
然后,来进行第二步,就需要下载文本编码器还有视频自编码器VAE。
我们先把文本编码器给下载下来,到时候跟我一样,打开链接就可以了。https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/text_encoders0
打开以后,它上面有两个,第一个是FP16量化版,总共是11.4G左右,然后第二个是FP8量化版,总共是6.7G左右。
这两个该怎么选择呢?如果显卡显存是低于8G的,那么一定要选第二个,就是这个FP8的量化版,因为它只有6.7G左右。
当然如果显卡显存是高于12G的,那么就选第一个,它精度会更高。
然后点download按钮,总共是6G左右,点击下载。
下载好文本编码器以后,只要打开我们的电脑,打开后进入到我们系统盘,我们点击用户,找到我们自己用户名,比如我当前电脑用户名是个LINGDU,打开它。
打开后,然后接着往下拉,在下方可以找到一个文档选项,就是图片里这个文件夹,打开它。
打开以后就看到里面有一个这个ComfyUI文件夹了。
接着我们进入到它根目录下,进入后找到里面有个models文件夹,打开它。
它是放到这个ComfyUI/models,然后是这个text_encoders文件夹下,找一下,找到text打开它。
打开以后,然后把刚才下载好的模型文件给拖进来就可以了。
然后,下载第二个模型文件,就是WAN 2.1这个视频自编码器。
https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/blob/main/split_files/vae/wan_2.1_vae.safetensors
打链接,把这编码器给下载下来,上方有个download按钮,点下载。
下载好模型文件以后,重新回到刚才的ComfyUI的根目录,打开,它是需要放到这个models文件夹下,有一个VAE文件夹。
我们回到这models文件夹下,然后在下方找到有一个vae文件夹,打开它,打开以后,同样把模型文件给拖进来,放入好以后,下载第三个文件,就是视频生成模型。
https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/diffusion_models
直接打开,我们会看到它里面的量化版也非常多,那么里面的版本该如何选择呢?
我们先来看一下,根据官方提示,建议我们选择FP16版本,而不是BF16版本,因为FP16版本它生成效果会更好一点。
从下方的质量等级我们可以看到,它是从高到低的,第一个是FP16,后面是FP8。
那么根据官方建议,我们就选择FP16版本。
把它download下来,我们点右侧的下载按钮,然后点下载。
下载好视频生成模型以后,同样给它放到指定文件夹下,它是需要放到ComfyUI/models还有diffusion models文件夹下。
找一下,然后现在回到刚才的根目录下,进入到models文件夹下,然后它需要放到里面有一个diffusion models文件夹,打开它,把这个文件给它拖进去就OK了。
放入好以后,下载第四个文件,就是文字转视频的工作流。
https://comfyanonymous.github.io/ComfyUI_examples/wan/text_to_video_wan.json
我们先把它download下来,打开以后鼠标右键点击另存为,我们给它放桌面上,点击保存。
获取到的文生图片工作流以后,然后先把ComfyUI客户端重新重启一下,给它关闭掉,再重新打开。
打开以后,我们先把刚才下载好的工作流给拖进去就可以了。
放入以后测试一下,在默认情况下,它已经放了一个默认的提示词,然后点一下方执行按钮。
你可以设置任何你需要的视频,比如我们把它上方几个提示词改一下,就一位年轻漂亮的女士,在湖边看手机,接着点击执行一下,速度非常快。
这里需要注意的是,如果想设置更长视频,那么在下方长度里你可以进行修改,它默认是33,你可以改成其它的。
当然这时间越大的话,那么它所生成视频的时间就会更长,然后上方有宽度,还有高度,你都可以进行修改。
然后我们来说一下如何实现图生视频。
就是图像转视频项目,需要先把两个模型文件放到指定文件夹下。
首先把进阶篇下载下来,模型文件总共有32GB,非常大,非常考验你的显卡。
https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/blob/main/split_files/diffusion_models/wan2.1_i2v_480p_14B_fp16.safetensors
比如选择14B FP8,这个模型总共是16.4G左右,然后给它download下来,总共是15G左右,点击下载。
当然如果显存没有这么大,那么你可以选1.3B的模型就可以了。
下载好模型后,然后先把模型给它放到指定文件夹下,就是放到diffusion models文件夹下。
重新回到刚才根目录,然后把下载好的模型文件给拖进来。
放置好以后,然后需要下载第二个文件,就是clip_vision。
https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/blob/main/split_files/clip_vision/clip_vision_h.safetensors
下载好以后,这个模型文件需要放到ComfyUI/models/clip_vision文件夹下。
这个models下有一个clip_vision,打开它。
打开以后,然后同样的把模型文件给它拖进来。
接下来就是最后一步了,先下载工作流,把Json格式的工作流给它下载下来。
打开以后鼠标右键点击另存为,需要注意:之前text转视频文件,然后这个是图片,就是image转视频文件,这两个工作流是不一样的。
拖入好以后,它默认已经提供提示词了。
这里很容易出错,这个要注意了,因为刚才的模型文件跟我是不一样的。
首先需要把上方的模型文件进行修改,它默认是14B FP16的,这个模型文件太大了,一般显卡不适合,所以这个需要把它修改,改成刚才下载好的FP8模型,它会自动切换的。
它下方这有个上传图片,我们可以上传一张图片来设置一下。
上面给自定义下,比如给她戴上墨镜,然后微笑,接着我们点击执行一下。
提示词你可以完全自定义,也是可以完全本地离线使用的,没有任何限制,你想干嘛就干嘛。
左边是原图,然后右边这个是生成以后的视频,效果还是非常给力的。
最后我说一下使用以后的体会,其实我们之前用过很多的文生视频或者图生视频AI大模型,但之前这些模型,要么就用起来非常难,或者视频生成时间非常长,非常困难。
但现在这模型完全不一样了,即使我的硬件设备没有更改,但它生成视频时候明显比之前快很多,关键是效果非常不错。
热门推荐
领取专属 10元无门槛券
私享最新 技术干货