UC伯克利黑科技：用语音数据预测说话人手势

CV君

发布于 2019-12-27 12:28:56

7610

发布于 2019-12-27 12:28:56

文章被收录于专栏：我爱计算机视觉

看到一篇CVPR 2019 论文《Learning Individual Styles of Conversational Gesture》，通过语音数据识别说话人手势，觉得蛮有意思。

下面这张图道出了作者们做的事情：

最下面一排是语音信号，中间是通过语音信号生成的手势数据，最上面是通过得到的手势数据合成的人物视频。

看起来还真是那么回事～

以下是作者信息：

作者来自UC伯克利、Zebra Medical Vision、MIT（简直就是黑科技集中营）。

手势识别是人机交互中的重要技术，以往的方案中可以使用深度相机数据识别，也可以使用RGB图像视频识别，对于前者Intel貌似一直做的很不错，对于后者现在最知名的开源库就是OpenPose了（OpenCV手部关键点检测（手势识别）代码示例）。

手势毕竟应该是个视觉问题，不通过视觉信号能识别手势吗？

在现实的人类沟通中，手势和说话人语音往往是强相关的，手势信号是人类正常沟通的一部分。这在演讲中表现最为明显。

通过人类说话的视频数据建立语音与手势的关系，然后直接通过语音生成手势，这看起来是个很大胆的想法。

为了避免人工标注，论文作者们直接使用OpenPose对人物说话的视频进行姿态估计，得到手和臂的手势数据。

虽然这种弱监督信息有一些标注错误，但在这个问题上已经够用了。

然后作者们的做法也非常简单粗暴，直接使用语音数据UNet解码结构生成手势姿态中关键点的位置。

如下图：

输入数据是一段语音频谱数据（2D log-mel spectrogram），通过全卷积网络和1D UNet结构，生成手势数据，通过L1 回归Loss监督学习。

另外作者发现只用L1回归损失是不够的，容易回归到手势的均值状态，作者又加了一个判别器D，用于判别生成的手势像不像真的。

跟其他方法比起来，本文算法在数值结果上是很优秀的：

视觉比较也很自然（请点击查看大图）：

大家可以通过视频感受下：

视频中将手势合成人物动作的技术来自：

C. Chan, S. Ginosar, T. Zhou, and A. A. Efros. Everybody Dance Now. ArXiv e-prints, Aug. 2018.

当然这一技术很有用，比如可以直接用其控制虚拟主持人的手势，让直播更自然。

作者称代码将开源，而且创建的数据也提供下载。

论文地址：

https://arxiv.org/abs/1906.04160v1

项目地址：

http://people.eecs.berkeley.edu/~shiry/speech2gesture/

代码地址：

https://github.com/amirbar/speech2gesture

技术在造假成真的路上走的越来越远了。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2019-06-12，如有侵权请联系 cloudcommunity@tencent.com 删除

https

网络安全

开源

本文分享自我爱计算机视觉微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

https

网络安全

开源

登录后参与评论

0 条评论

热度

UC伯克利黑科技：用语音数据预测说话人手势

UC伯克利黑科技：用语音数据预测说话人手势

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐