一段音频、一张照片，足以让人工智能生成一段逼真视频

文章来源：企鹅号 - SENSORO升哲科技

新加坡南洋理工大学（NTU Singapore）的一个研究小组开发了一个计算机程序，该程序只需要一个音频剪辑和一张面部照片，就可以创建反映说话者面部表情和头部动作的逼真视频。

DIverse但真实的面部动画，或DIRFA，是一个基于人工智能的程序，它可以拍摄音频和照片，并生成一个3D视频，显示人演示与口头音频同步的真实一致的面部动画。

NTU开发的项目改进了现有的方法，这些方法难以应对姿势变化和情绪控制。

为了实现这一目标，该团队对来自6000多人的100多万个视听剪辑进行了DIRFA训练，这些剪辑来自一个名为VoxCeleb2数据集的开源数据库，以预测语音提示，并将其与面部表情和头部运动相关联。

研究人员表示，DIRFA可以在包括医疗保健在内的各个行业和领域带来新的应用，因为它可以实现更复杂、更逼真的虚拟助理和聊天机器人，改善用户体验。它还可以作为言语或面部残疾人士的强大工具，帮助他们通过富有表情的化身或数字表示来传达自己的想法和情绪，增强他们的沟通能力。

通讯作者、新加坡南洋理工大学计算机科学与工程学院的陆世坚副教授领导了这项研究，说：“我们的研究可能会产生深远的影响，因为它结合人工智能和机器学习等技术，创造了高度逼真的个人讲话视频，从而彻底改变了多媒体通信领域只使用他们的录音和静态图像，精心策划嘴唇动作、生动的面部表情和自然的头部姿势。”

第一作者吴荣亮（音）博士毕业于南大商学院，说：“言语表现出多种多样性。个体在不同的语境中发音不同，包括持续时间、幅度、语气等方面的变化。此外，除了语言内容之外，言语还传达了关于说话者情绪状态和身份因素的丰富信息，如性别、年龄、种族甚至性格特征从人工智能和机器学习中的音频表示学习的角度，努力提高性能。吴博士是新加坡科学技术研究局信息通信研究所的研究科学家。

这一发现发表在8月份的科学期刊《模式识别》上。

研究人员表示，在音频驱动下创造逼真的面部表情是一项复杂的挑战。对于给定的音频信号，可能有许多可能的面部表情是有意义的，并且随着时间的推移，当处理一系列音频信号时，这些可能性可能会成倍增加。

由于音频通常与嘴唇运动有很强的关联，但与面部表情和头部位置的关联较弱，该团队旨在创造出与所提供的音频相对应的、表现出精确的嘴唇同步、丰富的面部表情和自然的头部运动的会说话的面孔。

为了解决这个问题，该团队首先设计了他们的人工智能模型DIRFA，以捕捉音频信号和面部动画之间的复杂关系。该团队在6000多人的100多万个音频和视频剪辑上训练了他们的模型，这些剪辑来自一个公开的数据库。

陆副教授补充道：“具体来说，DIRFA根据输入的音频模拟了面部动画的可能性，如眉毛凸起或鼻子褶皱。这种建模使该程序能够将音频输入转换为多样化但高度逼真的面部动画序列，以指导会说话的人脸的生成。”

吴博士补充道：“大量实验表明，DIRFA可以生成嘴唇运动准确、面部表情生动、头部姿势自然的会说话的人脸。然而，我们正在努力改进程序的界面，允许控制某些输出。例如，DIRFA不允许用户调整某个表情，例如将皱眉改为微笑。”

除了为DIRFA的界面添加更多选项和改进外，NTU的研究人员还将通过更广泛的数据集对其面部表情进行微调，其中包括更多样的面部表情和语音音频剪辑。

发表于: 2023-11-172023-11-17 17:56:54
原文链接：https://page.om.qq.com/page/O2ZPSuIMQnBa7Abq-LDwdHtw0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

一段音频、一张照片，足以让人工智能生成一段逼真视频

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐