文章/答案/技术大牛

发布

最近AI生成模型整理

文章来源：企鹅号 - 有趣的AI

LATTE3D——Nvidia文本生成3D对象的模型

LATTE3D是由英伟达的多伦多AI实验室的研究人员推出的一个文本生成3D对象的模型，能够从文本提示描述快速生成高质量的3D内容（仅需400毫秒）。该技术的核心在于采用了一种称为“摊销优化（amortized）”的方法，即在大量文本提示上同时优化一个共享的文本条件模型，以此提高模型对新提示的泛化能力，从而减少了生成每个3D对象所需的时间。

•官方项目主页：https://research.nvidia.com/labs/toronto-ai/LATTE3D/

•研究论文：https://drive.google.com/file/d/1HZ7EY1jFguiwxxetgQkpljrj0cxbhZXZ/view

在这里插入图片描述

LATTE3D功能

•文本到3D合成：能够根据文本描述生成相应的三维模型。用户可以通过输入文本提示，如“一只穿着礼帽的阿米巴绒绒玩偶螃蟹”，来生成具有特定特征和风格的3D对象。

•快速生成：LATTE3D可以在大约400毫秒内生成3D对象，这使得它能够实时地响应用户的输入，为用户提供即时的视觉反馈。

•高质量渲染：通过结合神经场和纹理表面生成，LATTE3D能够产生具有高细节水平的纹理网格，提供视觉上令人信服的3D渲染结果。

•3D风格化：LATTE3D还可以作为3D风格化工具，允许用户在现有的3D资产上应用新的风格或主题，从而创造出多样化的视觉表现。

LATTE3D架构

在这里插入图片描述

LATTE3D 的训练包含两个阶段：首先，使用体积渲染来训练纹理和几何形状。为了增强提示的稳健性，训练目标包括来自 3D 感知图像先验的 SDS 梯度以及将预测形状的掩模与库中的 3D 资产进行比较的正则化损失。然后，使用基于表面的渲染并仅训练纹理以提高质量。两个阶段都对一组提示使用摊销优化来保持快速生成。LATTE3D 的方法使用两个网络：纹理网络 T 和几何网络 G，两者均由 triplanes 和 U-Net 的组合组成。在第一阶段，两个网络的编码器共享相同的权重集。在第二阶段，冻结几何网络 G 并更新纹理网络 T，并使用输入文本嵌入的 MLP 进一步对 triplanes 进行上采样。

Mora——微软可以生成12s视频的多AI智能体框架

Mora是由来自微软和理海大学的研究人员推出的一个多智能体（AI Agents）框架，专门用于通用视频生成任务，目标是模拟并扩展OpenAI的Sora视频生成模型。该框架的核心理念是通过多个视觉智能体的协作来生成高质量的视频内容，Mora通过分解视频生成过程为多个子任务，并为每个子任务分配一个专门的智能体，从而实现了各种视频生成的功能。

根据论文中的实验结果显示，Mora在生成高分辨率（1024×576）且时间持续12秒的视频方面表现出色，总共包含75帧。但当涉及大量物体运动的场景时，Mora与Sora相比存在显著的性能差距。此外，尝试生成超过12秒的视频会导致视频质量显著下降。

•GitHub：https://github.com/lichao-sun/Mora（源码和模型待开源）

•arXiv论文：http://arxiv.org/abs/2403.13248

在这里插入图片描述

Mora功能

•文本到视频生成：Mora可以根据用户提供的文本描述自动生成相应的视频内容，能适用于从简单的场景描述到复杂故事情节的视频创作。

•图像到视频生成：除了直接从文本生成视频，Mora还能够结合用户提供的初始图像和文本提示，生成与之相匹配的视频序列，增强内容的丰富性和细节。

•扩展生成视频：Mora不仅可以从头开始生成视频，还能够对现有的视频内容进行扩展和编辑，增加新的元素或延长视频的持续时间。

•视频到视频编辑：Mora具备高级编辑功能，能够根据用户的文本指令对视频进行编辑，如改变场景、调整对象属性或添加新元素。

•连接视频：Mora能够将两个或多个视频片段无缝连接起来，创造出流畅的过渡效果，适用于制作视频合集或剪辑。

•模拟数字世界：Mora还能够创建和模拟数字世界，可根据文本描述创造出具有数字世界风格的视频序列，如游戏场景或虚拟环境。

Mora原理

Mora的工作原理基于一个多智能体框架，该框架通过协同多个专门化的AI智能体来完成视频生成任务。每个智能体都负责处理特定的子任务，这些子任务共同构成了完整的视频生成流程。

在这里插入图片描述

以下是Mora工作流程的详细步骤：

1.任务分解：Mora将复杂的视频生成任务分解为多个子任务，每个子任务都由一个专门的智能体来处理。

2.智能体角色定义：Mora定义了以下五种基本角色的智能体：

•提示选择与生成智能体：使用大型语言模型（如GPT-4或Llama）来优化和选择文本提示，以提高生成图像的相关性和质量。

•文本到图像生成智能体：将文本提示转换为高质量的初始图像。

•图像到图像生成智能体：根据文本指令修改给定的源图像。

•图像到视频生成智能体：将静态图像转换成动态视频序列。

•视频连接智能体：基于两个输入视频创建平滑过渡的视频。

3.工作流程：Mora根据任务需求，自动组织智能体按照特定的顺序执行子任务。例如，文本到视频的生成任务可能包括以下步骤：

• 首先，提示选择与生成智能体处理文本提示。

• 接着，文本到图像生成智能体根据优化后的文本提示生成初始图像。

• 然后，图像到视频生成智能体将初始图像转换成视频序列。

• 最后，如果需要，视频连接智能体可以将多个视频片段连接成一个连贯的视频。

4.多智能体协作：智能体之间通过预定义的接口和协议进行通信和协作，确保整个视频生成过程的连贯性和一致性。

5.生成与评估：每个智能体完成其子任务后，会将结果传递给下一个智能体，直至完成整个视频生成流程。生成的视频可以根据预定义的评估标准进行质量评估。

6.迭代与优化：Mora框架允许通过迭代和优化来改进视频生成的质量。智能体可以根据反馈调整其参数，以提高生成视频的质量和与文本提示的一致性。

AnimateDiff-Lightning——字节高质量视频生成模型

AnimateDiff-Lightning是由字节跳动的研究人员最新推出的一个高质量视频生成模型，利用了渐进式对抗性扩散蒸馏技术来实现快速的视频生成。该模型旨在解决现有视频生成模型在速度和计算成本上的主要挑战，同时保持生成视频的高质量，相较于原始的 AnimateDiff，生成视频的速度快十倍以上！

•Hugging Face模型地址：https://huggingface.co/ByteDance/AnimateDiff-Lightning

•Hugging Face Demo运行：https://huggingface.co/spaces/AP123/AnimateDiffLightning

•arXiv论文：https://arxiv.org/pdf/2403.12706.pdf

在这里插入图片描述

AnimateDiff-Lightning功能

•快速视频生成：AnimateDiff-Lightning能够通过少步骤推断（few-step inference）快速生成视频，显著减少了视频生成所需的时间，使其适用于需要即时或快速内容生成的场景。

•高质量输出：尽管生成速度快，AnimateDiff-Lightning仍然能够保持视频内容的高质量，确保生成的视频在视觉上具有较高的清晰度和细节表现。

•风格兼容性：通过跨模型蒸馏技术，AnimateDiff-Lightning能够适应多种不同的基础模型，这意味着它可以生成具有不同艺术风格（如现实主义、动漫、卡通等）的视频内容。

•不同宽高比的视频生成：AnimateDiff-Lightning能够在不同的宽高比下生成视频，支持多种视频格式和布局要求。

•视频到视频的转换：AnimateDiff-Lightning不仅支持从文本到视频的生成，还能够进行视频到视频的风格转换，为用户提供高度的创作自由度。

•与控制模块的兼容性：AnimateDiff-Lightning可以与图像控制模块（如ControlNet）和相机运动模块（如Motion LoRA）结合使用，进一步增强视频内容的控制能力。

AnimateDiff-Lightning原理

AnimateDiff-Lightning的方法是基于AnimateDiff模型的改进，并通过跨模型扩散蒸馏技术来提高视频生成的速度和质量。以下是AnimateDiff-Lightning方法的关键步骤和组成部分：

1. 模型和数据准备

•选择基础模型：AnimateDiff-Lightning选择了多个流行的基础模型，包括现实风格和动漫风格的模型，如Stable Diffusion v1.5、RealisticVision v5.1、epiCRealism、ToonYou Beta 6、IMP v1.0和Counterfeit v3.0。

•数据生成：使用AnimateDiff模型和选定的基础模型生成大量的视频剪辑数据，以支持蒸馏过程。这些数据包括从WebVid-10M数据集生成的现实风格视频和使用文本提示生成的动漫风格视频。

2. 跨模型蒸馏

•共享运动模块：AnimateDiff模型由冻结的图像基础模型和共享的运动模块组成。在蒸馏过程中，只更新运动模块的权重，而保持图像基础模型的权重不变。

•多GPU训练：在不同的GPU上加载不同的图像基础模型，并初始化相同的运动模块。这样可以同时在多个基础模型上进行蒸馏，提高了训练效率。

3. 流条件视频判别器

•扩展判别器：为了处理多个基础模型的不同流动，判别器被扩展为流条件的，即它可以根据基础模型的索引来学习并评估不同的流动轨迹。

•训练判别器：判别器与扩散模型和蒸馏模型一起训练，以确保生成的视频在风格和质量上与原始模型相匹配。

4. 蒸馏过程

•渐进式蒸馏：AnimateDiff-Lightning按照128 32 8 4 2的步骤顺序进行蒸馏，使用均方误差（MSE）和分类器自由引导（CFG）进行初步蒸馏，然后使用对抗性损失进行后续步骤。

•梯度累积：由于GPU内存限制，每个GPU只能处理一个批次，因此使用梯度累积技术来实现较大的有效批次大小。

5. 评估和测试

•定性评估：通过与原始AnimateDiff和AnimateLCM模型的比较，展示AnimateDiff-Lightning在不同推断步骤下生成视频的质量。

•定量评估：使用FVD（Fréchet Video Distance）指标对不同基础模型上生成的视频进行定量比较，以证明AnimateDiff-Lightning在保持原始质量方面的优势。

Stable Video 3D ——Stability AI多视角合成3D模型

Stable Video 3D（简称SV3D）是由Stability AI公司开发的一个多视角合成和3D生成模型，能够从单张图片生成一致的多视角图像，并进一步优化生成高质量的3D网格模型。该模型在之前发布的Stable Video Diffusion模型的基础上进行了改进，提供了更好的质量和多视角体验。相较于其他的3D生成模型，SV3D的主要优势在于其使用视频扩散模型而不是图像扩散模型，这在生成输出的泛化性和视角一致性方面提供了显著的好处。

•项目主页：https://sv3d.github.io/

•技术报告：https://stability.ai/s/SV3D_report.pdf

•Hugging Face模型：https://huggingface.co/stabilityai/sv3d

在这里插入图片描述

Stable Video 3D功能

•多视角视频生成：SV3D能够从单张图片输入生成多个视角的视频内容。用户可以从不同的方向和角度查看对象，每个视角都是高质量的，并且保持了视角之间的一致性。

•3D网格创建：通过使用生成的多视角视频和Stable Video 3D模型，用户可以创建对象的3D网格。这些3D网格是从二维图像中推断出来的，可以用于各种3D应用，如游戏开发、虚拟现实、增强现实等。

•轨道视频生成：Stable Video 3D提供了生成围绕对象的轨道视频的能力，允许用户创建围绕对象旋转或移动的视频，提供了一种动态的视角体验。

•相机路径控制：SV3D支持沿着指定的相机路径创建3D视频，用户可以精确控制视频的视角和相机运动，为创作提供了更高的自由度。

•新视角合成（NVS）：SV3D在新视角合成方面取得了显著进展，能够从任何给定的角度生成一致且逼真的视图，提高了3D生成的真实感和准确性。

Stable Video 3D原理

在这里插入图片描述

1.新视角合成（NVS）:

•输入图像：用户提供的单张2D图像作为输入，该图像包含一个或多个对象。

•相机姿态控制：定义一个相机轨迹，包括一系列的角度（仰角和方位角），用于控制生成图像的视角。

•潜在视频扩散模型：使用一个训练有素的潜在视频扩散模型（如Stable Video Diffusion - SVD），该模型能够根据输入图像和相机姿态生成一系列新的视角图像。这些图像模拟了围绕3D对象的轨道视频。

2.3D表示优化:

•粗略3D重建：使用生成的多视角图像作为目标，通过训练一个NeRF（Neural Radiance Fields）模型来重建3D对象的粗略表示。这个步骤在较低分辨率下进行，以捕捉对象的大致形状和纹理。

•网格提取：从训练好的NeRF模型中提取一个初步的3D网格，通常使用Marching Cubes算法。

•精细优化：采用DMTet（Deep Marching Tetrahedra）表示来进一步细化3D网格，这个步骤在高分辨率下进行，以提高细节的准确性和网格的质量。

3.改进的3D优化技术:

•掩蔽分数蒸馏采样（SDS）损失：为了提高不可见区域的3D质量，SV3D引入了一种掩蔽分数蒸馏采样损失。这种损失函数专注于在训练过程中填充和优化那些在参考视角中不可见的区域。

•解耦照明模型：SV3D还提出了一种解耦照明模型，该模型独立于3D形状和纹理进行优化，以减少由于固定照明条件导致的渲染问题。

4.训练和评估:

•数据集：SV3D在包含多样化3D对象的数据集上进行训练，如Objaverse数据集。

•评估：通过与真实世界的3D数据和其他NVS方法的比较，评估SV3D生成的多视角图像和3D网格的质量。

VLOGGER——谷歌多模态扩散模型

VLOGGER AI是谷歌的研究团队开发的一个多模态扩散模型，专门用于从单一输入图像和音频样本生成逼真的、连贯的人像动态视频。该模型的主要功能在于使用人工智能模型，将一张静态图片转换成一个动态的视频角色，同时保持照片中人物的逼真外观。此外，VLOGGER还能够根据音频来控制人物动作，不仅仅是面部动作和嘴唇同步，还包括头部运动、目光、眨眼以及上身和手部手势，从而将音频驱动的视频合成推向了一个新的高度。

•项目主页：https://enriccorona.github.io/vlogger/

•arXiv论文：https://arxiv.org/abs/2403.08764v1

在这里插入图片描述

VLOGGER功能

•图像和音频驱动的视频生成：VLOGGER能够根据单张人物图像和相应的音频输入生成说话人类的视频。用户只需提供一张图片和一段音频，VLOGGER将生成一个视频中的人物，其面部表情、嘴唇动作和身体语言与音频同步。

•多样性和真实性：VLOGGER生成的视频具有高度的多样性，能够展示原始主体的不同动作和表情，同时保持背景的一致性和视频的真实性。

•视频编辑：VLOGGER可以用于编辑现有视频，例如改变视频中人物的表情，使其与原始视频的未改变像素保持一致。

•生成移动和说话的人物：VLOGGER可以从单张输入图像和驱动音频生成说话面部的视频，即使没有视频中人物的原始视频资料。

•视频翻译：VLOGGER能够将一种语言的视频转换为另一种语言的视频，通过编辑唇部和面部区域以匹配新的音频，实现跨语言的视频内容适配。

VLOGGER原理

VLOGGER的工作原理主要基于一个两阶段的流程，结合了音频驱动的运动生成和时间连贯的视频生成。

在这里插入图片描述第一阶段：音频驱动的运动生成

1.音频处理：VLOGGER首先接收一段音频输入，这可以是语音或音乐。如果输入是文本，它也会通过文本到语音（TTS）模型转换为音频波形。

2.3D运动预测：接着，系统使用一个基于变换器（Transformer）架构的网络来处理音频输入。这个网络被训练来预测与音频同步的3D面部表情和身体姿势。网络使用多步注意力层来捕捉音频的时间特征，并生成一系列的3D姿势参数。

3.生成控制表示：网络输出的是一系列预测的面部表情（θe i）和身体姿势的残差（∆θb i）。这些参数随后用于生成控制视频生成过程的2D表示。

第二阶段：时间连贯的视频生成

1.视频生成模型：VLOGGER的第二个阶段是一个时间扩散模型，它接收第一阶段生成的3D运动控制和一张参考图像（即输入的单一人物图像）。

2.条件化视频生成：视频生成模型是一个基于扩散的图像到图像翻译模型，它利用预测的2D控制来生成一系列帧，这些帧按照输入的音频和3D运动参数进行动画处理。

3.超分辨率：为了提高视频质量，VLOGGER还包括一个超分辨率扩散模型，它将基础视频的分辨率从128×128提升到更高的分辨率，如256×256或512×512。

4.时间外延：VLOGGER使用时间外延（temporal outpainting）的技术来生成任意长度的视频。它首先生成一定数量的帧，然后基于前一帧的信息迭代地生成新的帧，从而扩展视频的长度。

数据集和训练

• VLOGGER在名为MENTOR的大规模数据集（2200个小时和800000个身份）上进行训练，这是一个包含大量身份和动态手势的大规模数据集。训练过程中，模型学习如何根据3D姿势参数和输入图像生成连贯的、高质量的视频序列。

发表于: 2024-03-232024-03-23 12:23:19
原文链接：https://page.om.qq.com/page/OfREyHTX6plogYzhXZ7ozWNw0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

最近AI生成模型整理

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐