专栏首页arxiv.org翻译专栏自我监督学习的音视频扬声器二值化(Multimedia)
原创

自我监督学习的音视频扬声器二值化(Multimedia)

主讲人二值化,即寻找特定主讲人的语音组,在视频会议、人机交互系统等以人为中心的应用中得到了广泛的应用。在这篇论文中,我们提出一种自监督的音视频同步学习方法来解决说话人的二值化问题,而不需要大量的标注工作。我们通过引入两个新的损失函数:动态三重损失和多项损失,改进了以前的方法。我们在真实世界的人机交互系统上进行了测试,结果表明我们的最佳模型获得了显著的+8%的f1分数,并降低了二值化的错误率。最后,我们介绍了一种新的大型音频视频语料库,以填补汉语音频视频数据集的空白。

原文题目:SELF-SUPERVISED LEARNING FOR AUDIO-VISUAL SPEAKER DIARIZATION

原文:Speaker diarization, which is to find the speech seg- ments of specific speakers, has been widely used in human- centered applications such as video conferences or human- computer interaction systems. In this paper, we propose a self-supervised audio-video synchronization learning method to address the problem of speaker diarization without massive labeling effort. We improve the previous approaches by intro- ducing two new loss functions: the dynamic triplet loss and the multinomial loss. We test them on a real-world human- computer interaction system and the results show our best model yields a remarkable gain of +8% F1-scores as well as diarization error rate reduction. Finally, we introduce a new large scale audio-video corpus designed to fill the vacancy of audio-video dataset in Chinese.

原文作者:Yifan Ding, Yong Xu, Shi-Xiong Zhang, Yahuan Cong, Liqiang Wang

原文链接:https://arxiv.org/abs/2002.05314

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 人工智能安全:通过定量镜头的场状态(Computers and Society)

    在过去的十年里,人工智能的性能有了很大的提高,并得到了广泛的应用。这种大规模采用的不可预见的影响,让人工智能安全的概念进入了公众的视野。人工智能安全是一个相对较...

    用户6869393
  • 从外表和行为来检测假冒视频(multimedia)

    合成生成的音频和视频——所谓的“深度伪造”——继续吸引着计算机图形和计算机视觉社区的想象力。与此同时,技术的民主化仍然令人担忧,因为它有可能破坏民主选举,造成小...

    用户6869393
  • 设定尺度:一个有效衡量触觉互联网的量化指标(Networking and Internet Architecture)

    通信领域的下一个前沿是远程环境的远程监控。与传统的基于网络的应用程序相比,远程操作提出了广泛不同的要求,这就要求对传统网络技术及其性能指标进行重大的重新设计。遥...

    用户6869393
  • 监督机器学习的可解释性调查(LG AI)

    通过例如人工神经网络获得的预测具有很高的准确性,但是人类经常将模型视为黑匣子。对决策的见解对人类来说大多是不透明的。尤其重要的是,尤其要了解在诸如医疗保健或金融...

    田冠宇
  • 你离中级前端工程师还有多远?

    在昨天的文章 知乎高赞:拿4K的前端开发都会做些什么?中,我已经简单聊了聊初级前端的岗位职责、技能要求等,推文之后效果还不错,有很多在校生加我微信“聊人生”。那...

    闰土大叔
  • 前端每周清单第 44 期: 2017 JS 调查报告、REST 接口实时化、ESM 的过去与未来

    前端每周清单专注前端领域内容,以对外文资料的搜集为主,帮助开发者了解一周前端热点;分为新闻热点、开发教程、工程实践、深度阅读、开源项目、巅峰人生等栏目。欢迎关注...

    王下邀月熊
  • SpringCloud微服务实战(六)-统一配置中心1 统一配置中心概述2 Config Server

    公众号-JavaEdge
  • 节约60%成本!虎牙直播云端大数据是怎么做到的?

    虎牙是中国第一家上市的游戏直播公司,旗下产品包括知名游戏直播平台虎牙直播、风靡东南亚和南美的游戏直播平台NimoTV等,产品覆盖PC、Web、移动三端。其中,游...

    腾讯云大数据团队
  • 时间的朋友·2017罗振宇跨年演讲

    获取本次演讲完整ppt 时间的朋友,你好: 欢迎来到”新个体“,昨天罗振宇在上海举行了他的倒数第18场”时间的朋友“跨年演讲,现场很震撼,先来一张现场照片 首先...

    企鹅号小编
  • iKcamp新书上市《Koa与Node.js开发实战》

    Node.js 10已经进入LTS时代!其应用场景已经从脚手架、辅助前端开发(如SSR、PWA等)扩展到API中间层、代理层及专业的后端开发。Node.js在企...

    iKcamp

扫码关注云+社区

领取腾讯云代金券