首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

什么是虚拟数字人?

图中扎着马尾辫、背着双肩包,漫步校园的是清华大学计算机系“学生”、清华大学首位虚拟数字人——华智冰。那么,什么是虚拟数字人?又是怎样的技术让虚拟数字人如此逼真?

清华大学计算机系“学生”华智冰

(图源:《知识就是力量》杂志)

陪伴在虚拟空间的“朋友”

虚拟数字人存在于电脑和网络世界中,你可以和它们交流,它会慢慢“了解”你的习惯,变得越来越“懂”你。为了让这些虚拟朋友更真实,科学家开发了一系列技术。

(图源:《知识就是力量》杂志)

听懂你在说什么

听懂的背后是自然语言处理技术在起作用,它包括语音识别、语言理解、语言生成等技术,这让虚拟数字人可以理解并生成自然语言。

此外,为了让虚拟数字人的表情和动作更生动,科学家利用面部表情和身体动作捕捉技术,对人类运动数据进行采集和分析,从而控制虚拟数字人的运动和行为。这样,它们就能以更自然和有趣的方式与人交流了。

情绪“补给站”

当涉及情感交流时,情感识别技术就派上了用场。这项技术不仅可以通过收集用户的说话内容、语音语调、面部表情等信息分析其情感状态,还会给予适当的情感反馈。

理解你的意图

为了让虚拟数字人能够记住用户喜好并提供更好的服务,深度学习技术对大量数据进行学习和分析,使虚拟数字人可以自主改进行为。

在自然人与虚拟数字人交流的过程中,自然语言理解技术可以使虚拟数字人理解用户输入的自然语言,并作出回应。近年来,大语言模型的横空出世也为人机交互的智能性带来新的突破。

活灵活现的“人”

熟悉的声音

在自然语言理解并生成回复文本基础上,语音合成技术可以将文字内容生成为音频,让虚拟数字人说出的话更自然。

从输入信息到虚拟数字人输出内容所需的处理技术(图源:《知识就是力量》杂志)

早期的语音合成技术使用的是单元拼接合成,即先构建语音片段数据库,然后选择合适的语音片段拼接成想要的语音。

随着深度学习技术的不断成熟,深度神经网络被用来学习文本与语音之间的“复杂关系”,利用大量的训练数据学习如何从文本生成更自然的语音。并且,随着深度学习模型的更新迭代,现在最新的模型已经可以做到使用某个同学的几条语音片段,就能“克隆”出这个同学的声音,实现从文本到声音的转换。

人工智能技术幻化成“人”

3D建模技术是创建虚拟数字人的外观和形态的基础。建模软件可以创造出栩栩如生的虚拟形象;运动学引擎可以模拟虚拟人的运动和动作,让行为更加真实和流畅;关节驱动技术和程序驱动技术,则为虚拟数字人提供了直观的交互体验和高度自定义的行为控制。

撰文 | 李雅  高迎明

责任编辑 | 王佳璇 段阳阳

运营编辑 | 段阳阳

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OajkBZncixSAWUVG-oifU3TA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券