形象类别介绍

最近更新时间:2025-05-21 20:59:32

我的收藏

形象类别介绍

形象类型
定义
使用场景
示例
2D精品
通过在专业影棚中录制动作素材,经过两周左右的训练可生成应用于播报、交互场景的数智人。精品形象可在文中随机插入指定动作,动作呈现多样性。
适用于金融、传媒类对数智人形象、动作有要求的客户。



2D小样本-通用口型
通过一段真人视频素材进行训练数智人,数智人的外貌与真人一致,口型将采用大模型生成的通用唇齿,训练视频素材要求更低,具体参见形象录制指引-通用口型
适用于对数智人口型无要求、无良好拍摄条件的客户。



2D小样本-专属口型
通过一段真人视频素材进行训练数智人,数智人的外貌与真人一致,口型将采用真人专属唇齿,训练视频素材需无其他人声以及明显环境声,具体参见形象录制指引-专属口型
适用于对数智人形象复刻有要求、有较好拍摄条件的客户。
2D小样本-高精版本
通过一段4K的真人视频素材进行训练数智人,素材采集要求及最终唇齿效果同2D小样本(专属口型),最终数智人的清晰度提升为4K。具体参见形象录制指引-高精版本
适用于大型会议、面对面对话、产品发布会、大屏场景。
2D小样本-照片数字人
仅需一张照片(真人或​​脸部比例接近真人​​的卡通形象照片)即可训练数智人;该版本主打低价快速,从素材提交后,一般情况下在10分钟后即可使用。照片数智人使用的是照片原始背景,不支持切换背景图片。
适用于泛互、娱乐场景。

2D小样本免训练-视频素材
输入一段视频(真人或脸部比例接近真人​​的卡通形象视频),无需训练​​,即可通过文本或音频驱动,​​自动生成口型匹配​​的说话视频。
适合客户获客拉新、制作营销视频&口播视频场景。


2D小样本免训练-照片素材
仅需一张照片(真人或​​脸部比例接近真人​​的卡通形象照片),无需训练,即可通过文本或音频输入,自动生成​​口型匹配的说话视频。
适合客户获客拉新、制作营销视频&口播视频场景。


3D卡通
根据客户的需求设定数智人五官特征、发型、服饰、配饰等完成原画,待客户评审后敲定最终形象后进行模型制作。后经过骨骼绑定、渲染、UE调优等阶段后可输出覆盖交互、播报场景的数智人。
适用于已有2D吉祥物形象,期望升级为3D形象为用户提供服务的场景。


3D半写实
根据客户的需求设定数智人五官特征、发型、服饰、配饰等完成原画,待客户评审后敲定最终形象后进行模型制作。后经过骨骼绑定、渲染、UE调优等阶段后可输出覆盖交互、播报场景的数智人。
适用于需要一定的写实感但精度要求不高的场景,如资讯播报、手机端智能客服场景。



3D写实
根据客户的需求设定数智人五官特征、发型、服饰、配饰等完成原画,待客户评审后敲定最终形象后进行模型制作。后经过骨骼绑定、渲染、UE调优等阶段后可输出覆盖交互、播报场景的数智人。
适用于需要高写实感和高精度展现的场景,如品牌宣传、大屏交互场景。





形象对比


表格中 ✓ 表示支持,X 表示不支持。
2D小样本系列 SKU 差异对比
项目
子项
通用口型
专属口型
高精版本
免训练版本-视频素材
免训练版本-照片素材
照片数字人
数智人能力项
音视频播报
会话互动+直播
X
X
数据准备
录制要求
录制1~10分钟的真人视频,模特可全程闭嘴,也可开口说话;对视频声音无要求
录制3~10分钟的真人说话视频,录制环境需要保持安静,仅可录制拍摄主体的声音
录制标准同专属口型,视频分辨率需是4K
录制5秒~20分钟的真人说话视频,对视频声音无要求
一张真人或​​脸部比例接近真人​​的卡通形象照片
一张真人或​​脸部比例接近真人​​的卡通形象照片
实景克隆
走动克隆
X
X
绿幕扣图
X
X
X
形象效果
口型效果
使用大模型生成的个性化唇齿和口型
深度学习本人的口型特征,与本人的唇齿特征相似度达99%
在专属口型基础上,支持输出4K分辨率,更加高清
该模式会尽可能保留录制本人的口型特征,与本人的唇齿相似度接近90%
使用大模型生成的个性化唇齿和口型
使用大模型生成的个性化唇齿和口型
表情&动作自然度
取决于个人表现力
取决于个人表现力
取决于个人表现力
取决于个人表现力
身体可自然晃动
身体姿态无法晃动
交付服务
交付周期
1天内出demo供客户效果确认,客户点击确认后即可使用
2天内出demo供客户确认效果,客户点击确认后即可使用
3天内出demo供客户确认效果,客户点击确认后即可使用
无需训练,分钟级即可看到成品视频效果
无需训练,分钟级即可看到成品视频效果
10分钟内即可使用
训练方式
全自动训练
全自动训练+人工介入调优
全自动训练+人工介入调优
全自动训练
全自动训练
全自动训练
通用vs免训练

专属vs免训练

通用vs专属



通用口型 vs 照片数字人



专属口型 vs 高精版本