前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【协同语音手势】开源 | 一个新的框架ANGIE,有效地捕获可重用的共同语音手势模式以及精细的节奏运动

【协同语音手势】开源 | 一个新的框架ANGIE,有效地捕获可重用的共同语音手势模式以及精细的节奏运动

作者头像
CNNer
发布2023-02-28 11:12:40
4860
发布2023-02-28 11:12:40
举报
文章被收录于专栏:CNNerCNNer

论文地址: http://arxiv.org/pdf/2212.02350v1.pdf

来源: 香港中文大学

论文名称:Audio-Driven Co-Speech Gesture Video Generation

原文作者:Xian Liu

内容提要

协同语音手势对于人机交互和数字娱乐至关重要。而之前的作品大多将语音音频映射到人类骨骼(例如,2D关键点),在图像域中直接生成说话者的手势问题未解决。在这项工作中,我们正式定义并研究了音频驱动的联合语音手势视频生成,即使用统一框架以生成由语音音频驱动的说话者图像序列。本文的关键是共同语音手势可以被分解成共同的运动模式微妙的节奏动态。为此,我们提出了一个新的框架AudiodriveN Gesture vIdeo gEneration(ANGIE),以有效地捕获可重用的共同语音手势模式以及精细的节奏运动。为了实现高保真的图像序列生成,我们利用了无监督的而不是结构人体先验(例如2D骨架)。具体而言,1)我们提出了一种矢量量化运动提取器(VQ-motion Extractor)从内隐运动中总结常见的共同语音手势模式表示为码本。2)此外,具有运动的协同语音手势GPT细化(Co-Speech GPT)旨在补充微妙的韵律运动细节。大量实验表明,我们的框架能够渲染逼真的语音手势视频。

主要框架及实验结果

声明:文章来自于网络,仅用于学习分享,版权归原作者所有

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-02-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CNNer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯云小微
腾讯云小微,是一套腾讯云的智能服务系统,也是一个智能服务开放平台,接入小微的硬件可以快速具备听觉和视觉感知能力,帮助智能硬件厂商实现语音人机互动和音视频服务能力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档