前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >UC伯克利黑科技:用语音数据预测说话人手势

UC伯克利黑科技:用语音数据预测说话人手势

作者头像
CV君
发布2019-12-27 12:28:56
7610
发布2019-12-27 12:28:56
举报
文章被收录于专栏:我爱计算机视觉

看到一篇CVPR 2019 论文《Learning Individual Styles of Conversational Gesture》,通过语音数据识别说话人手势,觉得蛮有意思。

下面这张图道出了作者们做的事情:

最下面一排是语音信号,中间是通过语音信号生成的手势数据,最上面是通过得到的手势数据合成的人物视频。

看起来还真是那么回事~

以下是作者信息:

作者来自UC伯克利、Zebra Medical Vision、MIT(简直就是黑科技集中营)。

手势识别是人机交互中的重要技术,以往的方案中可以使用深度相机数据识别,也可以使用RGB图像视频识别,对于前者Intel貌似一直做的很不错,对于后者现在最知名的开源库就是OpenPose了(OpenCV手部关键点检测(手势识别)代码示例)。

手势毕竟应该是个视觉问题,不通过视觉信号能识别手势吗?

在现实的人类沟通中,手势和说话人语音往往是强相关的,手势信号是人类正常沟通的一部分。这在演讲中表现最为明显。

通过人类说话的视频数据建立语音与手势的关系,然后直接通过语音生成手势,这看起来是个很大胆的想法。

为了避免人工标注,论文作者们直接使用OpenPose对人物说话的视频进行姿态估计,得到手和臂的手势数据。

虽然这种弱监督信息有一些标注错误,但在这个问题上已经够用了。

然后作者们的做法也非常简单粗暴,直接使用语音数据UNet解码结构生成手势姿态中关键点的位置。

如下图:

输入数据是一段语音频谱数据(2D log-mel spectrogram),通过全卷积网络和1D UNet结构,生成手势数据,通过L1 回归Loss监督学习。

另外作者发现只用L1回归损失是不够的,容易回归到手势的均值状态,作者又加了一个判别器D,用于判别生成的手势像不像真的。

跟其他方法比起来,本文算法在数值结果上是很优秀的:

视觉比较也很自然(请点击查看大图):

大家可以通过视频感受下:

视频中将手势合成人物动作的技术来自:

C. Chan, S. Ginosar, T. Zhou, and A. A. Efros. Everybody Dance Now. ArXiv e-prints, Aug. 2018.

当然这一技术很有用,比如可以直接用其控制虚拟主持人的手势,让直播更自然。

作者称代码将开源,而且创建的数据也提供下载。

论文地址:

https://arxiv.org/abs/1906.04160v1

项目地址:

http://people.eecs.berkeley.edu/~shiry/speech2gesture/

代码地址:

https://github.com/amirbar/speech2gesture

技术在造假成真的路上走的越来越远了。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-06-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 我爱计算机视觉 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档