OpenAI的sora太火了!但是现在连内测资格都很难获取,更不要说让普通人上手体验了!
但是别慌,开源社区有个项目也能在一定程度满足你视频生成需求,那就是:Open-Sora
目前项目已经收到1w个⭐了,十分火热!
Open-Sora是一个开源项目,旨在复现OpenAI的Sora模型核心技术,专注于视频生成任务。目前能通过AI生成 2 秒 512x512 的视频
如果你想自己部署,作者提供了模型权重。只需400K视频片段和在单卡H800上训200天(类比Stable Video Diffusion的152M样本),我们就可以生成2秒的512×512视频。
好了,话不多说,我们先看看效果!
Open-Sora怎么实现的?
Open-Sora的模型架构采用了当前流行的扩散变换器(DiT)架构。这个架构包括预训练的变分自动编码器(VAE)、文本编码器和利用时空注意力机制的STDiT(空间时空扩散变换器)模型。
STDiT模型通过串行方法将1D时间注意力模块叠加在2D空间注意力模块上,以对时间关系进行建模。这样的结构大大降低了训练和推理成本。
Open-Sora的训练复制方案分为三个阶段:大规模图像预训练、大规模视频预训练和高质量视频数据微调。每个阶段都根据前一阶段的权重继续训练,从而更高效地实现高质量视频生成的目标。
Open-Sora如何使用?
项目目前已开源,可以去网站下载使用,然后执行如下命令
# create a virtual envconda create -n opensora python=3.10
# install torch# the command below is for CUDA 12.1, choose install commands from # https://pytorch.org/get-started/locally/ based on your own CUDA versionpip3 install torch torchvision
# install flash attention (optional)pip install packaging ninjapip install flash-attn --no-build-isolation
# install apex (optional)pip install -v --disable-pip-version-check --no-cache-dir --no-build-isolation --config-settings "--build-option=--cpp_ext" --config-settings "--build-option=--cuda_ext" git+https://github.com/NVIDIA/apex.git
# install xformerspip3 install -U xformers --index-url https://download.pytorch.org/whl/cu121
# install this projectgit clone https://github.com/hpcaitech/Open-Soracd Open-Sorapip install -v .
项目地址:
https://github.com/hpcaitech/Open-Sora?tab=readme-ov-file
领取专属 10元无门槛券
私享最新 技术干货