近年来,3D 原生生成模型在游戏、影视和设计领域的资产创建中展现出强大潜力。然而,大多数现有方法仍主要依赖图像作为条件输入,缺乏细粒度、多模态的控制能力,限制了其在实际生产流程中的应用。
为解决这一瓶颈,腾讯混元团队推出了混元 3D-Omni,一个基于 Hunyuan3D 2.1 构建的统一多模态可控 3D 生成框架。该框架不仅支持图像作为输入,还可接受点云、体素、边界框与骨骼姿态等多种控制信号,实现对生成物体几何结构、拓扑与姿态的精细控制。
技术报告:Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets
研发团队:Tencent Hunyuan3D Team, 2025.
混元 3D 主页:https://3d.hunyuan.tencent.com
代码下载:https://github.com/Tencent-Hunyuan/Hunyuan3D-Omni
权重下载:https://huggingface.co/tencent/Hunyuan3D-Omni
报告链接:https://arxiv.org/pdf/2509.21245
一、背景与挑战
随着 3D 数据规模不断扩大,基于原生 3D 表示(如点云、体素)的生成模型逐渐成为主流。这类方法通常结合 3D 变分自编码器(VAE)与潜在扩散模型(LDM),能够高效生成高质量 3D 模型。例如,Hunyuan3D 2.1 借助 VecSet 表示和 Diffusion Transformer(DiT),实现了从单图像到 3D 模型的快速生成。
然而,仅依赖图像输入存在诸多局限:
单视角图像易受图像遮挡、光照或视角干扰,生成结果缺乏几何准确性;
难以精细控制生成对象的比例、姿态和结构细节;
无法适应多模态输入(如深度图、LiDAR 点云、骨架动作等),限制了在实际场景中的使用。
二、Hunyuan3D Omni 的核心创新
图 1:混元 3D-Omni 可支持多种模态作为控制条件,实现精细化 3D 资产生成
混元 3D-Omni 是一个支持多种控制条件的 3D 资产创建系统。它通过两个关键性的创新来推动尖端 3D 生成技术的发展: 其一,采用轻量化的统一控制编码器,实现多种控制条件的统一支持;其二,引入渐进式难度感知训练策略,提升模型对多模态融合的鲁棒性。
作为业界首个统一多种条件控制的 3D 生成模型,混元 3D-Omni 可融合多达四类控制条件,显著提升生成结果的可控性及质量。同时该系统将完整开放推理代码以及权重,加速可控 3D 生成模型在学术领域研究以及工业落地部署。创新点总结如下:
1. 多模态控制信号统一处理
Hunyuan3D-Omni 引入了四种控制信号:
骨骼姿态(Skeleton):用于角色动作控制;
边界框(Bounding Box):调整生成对象在标准空间中的长宽高比例;
点云(Point Cloud):提供几何结构先验,增强细节还原;
体素(Voxel):稀疏几何提示,改善比例与结构一致性。
2. 轻量化统一控制编码器
所有控制信号被统一表示为点云形式,并通过一个共享的控制编码器提取特征。该编码器对不同模态条件进行区分,避免控制目标之间的混淆。最终的控制特征与图像 DINO 特征拼接,作为 DiT 的联合输入。
3. 渐进式难度感知训练策略
在训练过程中,模型随机选择一种控制条件,并偏向采样难度较高的信号(如骨骼姿态),同时降低简单信号(如点云)的权重。这种策略提升了模型对多模态融合的鲁棒性,也能优雅处理输入缺失的情况。
三、关键实现方法
图 2:混元 3D-Omni 模型框架图
混元 3D-Omni 的模型架构建立在混元 3D 2.1 的基础之上,通过引入统一的多模态控制编码机制,实现了对点云、体素、边界框和骨骼等多种控制信号的高效融合与处理。其整体框架延续了基于 VecSet 表示的 3D VAE 与 3D 扩散模型结合的主干结构,但在条件控制机制上进行了重要创新。
模型首先使用 3D VAE 将输入点云 (含坐标和法向信息)编码为潜在表示。解码器则从潜在表示重建符号距离函数(SDF)场,并通过等值面提取得到显式网格输出。在扩散阶段,模型采用基于流匹配的 3D Latent Diffusion Model(LDM)。
混元 3D-Omni 的核心创新在于设计了统一控制编码器(Unified Control Encoder),用于处理四种不同类型的控制信号:
骨骼条件控制采用 3D 骨骼起点坐标表示姿态,通过随机采样不同动作帧构建训练对,实现对生成模型姿态的灵活控制;
边界框条件将长宽比例转化为标准空间中的八个顶点坐标,通过对渲染图像或点云施加随机扰动,提升模型对比例控制的泛化能力;
点云支持多种输入来源(如深度相机、LiDAR 或重建模型),并引入随机丢弃与噪声扰动以模拟真实场景;
体素则通过将点云量化到 [0,16]^3 网格中,再映射至 [-1,1]^3 空间,形成稀疏几何提示。
所有控制信号均被统一表示为点云形式。编码器首先对输入点云进行位置编码,然后通过线性层提取特征,并叠加可学习的模态标识嵌入以区分不同控制类型,最终控制特征与图像特征拼接形成联合条件,输入至 DiT 模块参与去噪过程。
为提升模型对多模态信号的鲁棒性,训练过程中采用难度感知采样策略:1)每批次随机选择一种控制模态;2)对难度较高的信号(如骨骼姿态)赋予更高采样概率,对简单信号(如点云)进行降权重处理;3)支持部分控制信号缺失的容错训练。
四、实验结果
图 3:骨骼控制人物姿态
骨骼控制条件的核心目标在于调整输入图像的姿态特征,该功能主要应用于角色类物体的生成过程中。如图 3 所示,在以骨骼条件作为额外输入的前提下,我们的 Omni 模型能够生成高质量且与目标姿态精确对应的角色几何形体,包括 A 姿态、单手抬起姿态以及双手上举姿态等多种姿态。我们采用了多种风格的角色图像作为条件输入,其中包括从 3D 角色数据渲染得到的图像,以及通过生成式模型合成的图像。
值得注意的是,无论输入风格如何变化,我们的 Omni 模型均能持续生成具有精细几何细节的人体网格,且生成结果与输入骨架保持严格对齐,未出现任何畸变。
图 4:边界框控制不同比例
图 5:边界框控制解决单图生成 “纸片” 问题
边界框控制信号能够自由调节生成物体的长宽比例。如图 4 所示,在相同图像条件下,不同尺寸的边界框成功调控了生成模型的尺寸。需要特别指出的是,这种尺寸调控并非简单的线性拉伸:当沙发长度增加时,模型会自动生成额外的支撑腿结构;凯旋门模型在比例调整后同样保持合理的建筑形态。这证明边界框控制能触发生成网络的智能几何重构能力。
更为重要的是,如图 5 的对比实验所示,当仅用单视角图像作为条件生成 “纸片物体” 这类失败情况下,注入边界框信号能够提供线索,成功生成正确的 3D 资产。
图 6:点云控制补充三维信息
针对点云控制,我们展示了两种设置下的生成结果:仅使用图像输入,以及图像结合点云控制输入。对于后者,我们进一步考虑了三种点云输入类型:完整点云、深度图像生成的表面点云以及扫描获得的噪声点云。
在前两个案例中可以看到,提供完整点云作为控制信号能有效解决单视图输入固有的几何歧义问题,并成功还原被遮挡的内部结构。在第三和第四个案例中,通过深度图获取的表面点云同样减轻了单视图歧义,确保生成几何在尺度上与真实物体精确对齐。在第五个案例中,即使输入来自扫描的噪声表面点云,生成几何与原始物体的对齐效果仍明显优于仅使用图像的基线方法,有效解决了图像编码器容易忽略真实物体姿态的问题。
综上所述,一旦提供点云输入,我们的 Omni 模型能够有效将生成几何与真实几何结构对齐,即使是部分点云也能作为提升 3D 几何生成质量的重要线索,显著缓解了单视图歧义。
图 7:体素控制物体结构
与点云条件相似,体素条件通过提供稀疏几何线索,有效解决单张图像输入固有的歧义性问题。如图 7 所示,在第一个和第五个案例中,额外的体素控制条件确保生成物体在尺度上与真实几何结构精确对齐。案例 2、3、4 进一步展示了体素条件在恢复精细几何细节方面的显著效果:成功重建盾牌的平整表面、精准捕捉鸟类翅膀的形态特征,以及高度还原杯子的低多边形风格几何结构。
这些实例充分证明,引入体素条件后,模型能够同时准确重建物体的比例关系和细节特征,从而全面提升生成质量。
五、总结
混元 3D-Omni 作为一个轻量级、多模态、可控的 3D 生成框架,在不破坏基础模型能力的前提下,通过统一控制编码器整合多种几何与控制信号。
实验表明,该框架能够显著提升生成准确性、支持几何感知的变换,并增强生产流程的稳定性与鲁棒性。这项研究不仅推动了 3D 生成模型的可控性与实用性,也为未来融合多模态信号的通用 3D 生成奠定了基础。