腾讯云智能数智人形象类别介绍

形象类别介绍
形象类型
定义
使用场景
示例
2D精品
通过在专业影棚中录制动作素材，经过两周左右的训练可生成应用于播报、交互场景的数智人。精品形象可在文中随机插入指定动作，动作呈现多样性。
适用于金融、传媒类对数智人形象、动作有要求的客户。
﻿
﻿
﻿
2D小样本-通用口型
通过一段真人视频素材进行训练数智人，数智人的外貌与真人一致，口型将采用大模型生成的通用唇齿，训练视频素材要求更低，具体参见形象录制指引-播报场景、形象录制指引-交互场景。
适用于对数智人口型无要求、无良好拍摄条件的客户。
﻿
﻿
﻿
2D小样本-专属口型
通过一段真人视频素材进行训练数智人，数智人的外貌与真人一致，口型将采用真人专属唇齿，训练视频素材需无其他人声以及明显环境声，具体参见形象录制指引-播报场景、形象录制指引-交互场景。
适用于对数智人形象复刻有要求、有较好拍摄条件的客户。
﻿
2D小样本-高精版本
通过一段4K的真人视频素材进行训练数智人，素材采集要求及最终唇齿效果同2D小样本（专属口型），最终数智人的清晰度提升为4K。具体参见形象录制指引-播报场景、形象录制指引-交互场景。
适用于大型会议、面对面对话、产品发布会、大屏场景。
﻿
2D小样本-照片数字人
仅需一张照片（真人或​​脸部比例接近真人​​的卡通形象照片）即可训练数智人；该版本主打低价快速，从素材提交后，一般情况下在10分钟后即可使用。照片数智人使用的是照片原始背景，不支持切换背景图片。
适用于泛互、娱乐场景。
﻿
2D小样本免训练-视频素材
输入一段视频（真人或脸部比例接近真人​​的卡通形象视频），无需训练​​，即可通过文本或音频驱动，​​自动生成口型匹配​​的说话视频。
适合客户获客拉新、制作营销视频&口播视频场景。
﻿
﻿
2D小样本免训练-照片素材
仅需一张照片（真人或​​脸部比例接近真人​​的卡通形象照片），无需训练，即可通过文本或音频输入，自动生成​​口型匹配的说话视频。
适合客户获客拉新、制作营销视频&口播视频场景。
﻿
﻿
3D卡通
根据客户的需求设定数智人五官特征、发型、服饰、配饰等完成原画，待客户评审后敲定最终形象后进行模型制作。后经过骨骼绑定、渲染、UE调优等阶段后可输出覆盖交互、播报场景的数智人。
适用于已有2D吉祥物形象，期望升级为3D形象为用户提供服务的场景。
﻿
﻿
3D半写实
根据客户的需求设定数智人五官特征、发型、服饰、配饰等完成原画，待客户评审后敲定最终形象后进行模型制作。后经过骨骼绑定、渲染、UE调优等阶段后可输出覆盖交互、播报场景的数智人。
适用于需要一定的写实感但精度要求不高的场景，如资讯播报、手机端智能客服场景。
﻿
﻿
﻿
3D写实
根据客户的需求设定数智人五官特征、发型、服饰、配饰等完成原画，待客户评审后敲定最终形象后进行模型制作。后经过骨骼绑定、渲染、UE调优等阶段后可输出覆盖交互、播报场景的数智人。
适用于需要高写实感和高精度展现的场景，如品牌宣传、大屏交互场景。
﻿
﻿
﻿
﻿形象对比
﻿
表格中 ✓ 表示支持，X 表示不支持。
2D小样本系列 SKU 差异对比
﻿
﻿
﻿
﻿
﻿
﻿
﻿
项目
子项
通用口型
专属口型
高精版本
免训练版本-视频素材
免训练版本-照片素材
照片数字人
数智人能力项
音视频播报
✓
✓
✓
✓
✓
✓
﻿
会话互动+直播
✓
✓
✓
X
X
✓
数据准备
录制要求
录制5s以上的真人视频，模特可全程闭嘴，也可开口说话；对视频声音无要求
录制30s以上的真人说话视频，录制环境需要保持安静，仅可录制拍摄主体的声音
录制标准同专属口型，视频分辨率需是4K
录制1秒~20分钟的真人说话视频，对视频声音无要求
一张真人或​​脸部比例接近真人​​的卡通形象照片
一张真人或​​脸部比例接近真人​​的卡通形象照片
﻿
实景克隆
✓
✓
✓
✓
✓
✓
﻿
走动克隆
✓
✓
✓
✓
X
X
﻿
绿幕扣图
✓
✓
✓
X
X
X
形象效果
口型效果
使用大模型生成的个性化唇齿和口型
深度学习本人的口型特征，与本人的唇齿特征相似度达99%
在专属口型基础上，支持输出4K分辨率，更加高清
该模式会尽可能保留录制本人的口型特征，与本人的唇齿相似度接近90%
使用大模型生成的个性化唇齿和口型
使用大模型生成的个性化唇齿和口型
﻿
表情&动作自然度
取决于个人表现力
取决于个人表现力
取决于个人表现力
取决于个人表现力
身体可自然晃动
身体姿态无法晃动
交付服务
交付周期
1天内出demo供客户效果确认，客户点击确认后即可使用
2天内出demo供客户确认效果，客户点击确认后即可使用
3天内出demo供客户确认效果，客户点击确认后即可使用
无需训练，分钟级即可看到成品视频效果
无需训练，分钟级即可看到成品视频效果
10分钟内即可使用
﻿
训练方式
全自动训练
全自动训练+人工介入调优
全自动训练+人工介入调优
全自动训练
全自动训练
全自动训练
通用vs免训练
﻿
﻿
﻿
﻿
﻿
﻿
﻿
专属vs免训练
﻿
﻿
﻿
﻿
﻿
﻿
﻿
通用vs专属
﻿
﻿
﻿
﻿
﻿
﻿
﻿
﻿
﻿
通用口型 vs 照片数字人
﻿
﻿
﻿
﻿
﻿
﻿
﻿
﻿
﻿
专属口型 vs 高精版本
﻿
﻿
﻿
﻿
﻿
﻿
﻿
﻿
﻿
﻿

形象类型	定义	使用场景	示例
2D精品	通过在专业影棚中录制动作素材，经过两周左右的训练可生成应用于播报、交互场景的数智人。精品形象可在文中随机插入指定动作，动作呈现多样性。	适用于金融、传媒类对数智人形象、动作有要求的客户。
2D小样本-通用口型	通过一段真人视频素材进行训练数智人，数智人的外貌与真人一致，口型将采用大模型生成的通用唇齿，训练视频素材要求更低，具体参见形象录制指引-播报场景、形象录制指引-交互场景。	适用于对数智人口型无要求、无良好拍摄条件的客户。
2D小样本-专属口型	通过一段真人视频素材进行训练数智人，数智人的外貌与真人一致，口型将采用真人专属唇齿，训练视频素材需无其他人声以及明显环境声，具体参见形象录制指引-播报场景、形象录制指引-交互场景。	适用于对数智人形象复刻有要求、有较好拍摄条件的客户。
2D小样本-高精版本	通过一段4K的真人视频素材进行训练数智人，素材采集要求及最终唇齿效果同2D小样本（专属口型），最终数智人的清晰度提升为4K。具体参见形象录制指引-播报场景、形象录制指引-交互场景。	适用于大型会议、面对面对话、产品发布会、大屏场景。
2D小样本-照片数字人	仅需一张照片（真人或脸部比例接近真人的卡通形象照片）即可训练数智人；该版本主打低价快速，从素材提交后，一般情况下在10分钟后即可使用。照片数智人使用的是照片原始背景，不支持切换背景图片。	适用于泛互、娱乐场景。
2D小样本免训练-视频素材	输入一段视频（真人或脸部比例接近真人的卡通形象视频），无需训练，即可通过文本或音频驱动，自动生成口型匹配的说话视频。	适合客户获客拉新、制作营销视频&口播视频场景。
2D小样本免训练-照片素材	仅需一张照片（真人或脸部比例接近真人的卡通形象照片），无需训练，即可通过文本或音频输入，自动生成口型匹配的说话视频。	适合客户获客拉新、制作营销视频&口播视频场景。
3D卡通	根据客户的需求设定数智人五官特征、发型、服饰、配饰等完成原画，待客户评审后敲定最终形象后进行模型制作。后经过骨骼绑定、渲染、UE调优等阶段后可输出覆盖交互、播报场景的数智人。	适用于已有2D吉祥物形象，期望升级为3D形象为用户提供服务的场景。
3D半写实	根据客户的需求设定数智人五官特征、发型、服饰、配饰等完成原画，待客户评审后敲定最终形象后进行模型制作。后经过骨骼绑定、渲染、UE调优等阶段后可输出覆盖交互、播报场景的数智人。	适用于需要一定的写实感但精度要求不高的场景，如资讯播报、手机端智能客服场景。
3D写实	根据客户的需求设定数智人五官特征、发型、服饰、配饰等完成原画，待客户评审后敲定最终形象后进行模型制作。后经过骨骼绑定、渲染、UE调优等阶段后可输出覆盖交互、播报场景的数智人。	适用于需要高写实感和高精度展现的场景，如品牌宣传、大屏交互场景。

形象类别介绍

本页目录：

形象类别介绍

﻿形象对比﻿

﻿

形象对比