专栏首页arxiv.org翻译专栏用于说话人识别的度量学习的防御(CS SD)
原创

用于说话人识别的度量学习的防御(CS SD)

本文的目标是对不可见的说话者进行“开集”的说话者识别,其中理想的嵌入应该能够将信息压缩成具有小的类内(同一说话者)和大的类间(不同说话者)距离的紧凑的话语级表示。

人们普遍认为,通过分类目标训练的网络要优于度量学习方法。在本文中,我们对VoxCeleb数据集上的说话人识别的最新丢失函数进行了广泛的评估。我们的研究表明:与基于分类的损失相比,即使是最普通的三重损失,也显示出了良好的竞争性能;而那些使用度量学习目标训练的三重损失,也比最先进的方法表现得更好。

原文题目:In defence of metric learning for speaker recognition

原文:The objective of this paper is 'open-set' speaker recognition of unseen speakers, where ideal embeddings should be able to condense information into a compact utterance-level representation that has small intra-class (same speaker) and large inter-class (different speakers) distance.

A popular belief in speaker recognition is that networks trained with classification objectives outperform metric learning methods. In this paper, we present an extensive evaluation of most recent loss functions for speaker recognition on the VoxCeleb dataset. We demonstrate that even the vanilla triplet loss shows competitive performance compared to classification-based losses, and those trained with our angular metric learning objective outperform state-of-the-art methods.

原文作者:Joon Son Chung, Jaesung Huh, Seongkyu Mun, Minjae Lee, Hee Soo Heo, Soyeon Choe, Chiheon Ham, Sunghwan Jung, Bong-Jin Lee, Icksang Han

原文地址:https://arxiv.org/abs/2003.11982

原创声明,本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

登录 后参与评论
0 条评论

相关文章

  • AM-MobileNet1D:用于说话者识别的便携式模型(CS.SD)

    说话人识别和说话人识别在诸如自动化,身份验证和安全性等基本应用中是具有挑战性的任务。诸如SincNet和AM-SincNet之类的深度学习方法在这些任务上取得了...

    蔡小雪7100294
  • 金融/语音/音频处理学术速递[9.7]

    【1】 Keep it green, simple and socially fair: a choice experiment on prosumers' ...

    公众号-arXiv每日学术速递
  • 金融/语音/音频处理学术速递[9.1]

    【1】 Is happiness u-shaped in age everywhere? A methodological reconsideration f...

    公众号-arXiv每日学术速递
  • 音乐识别探索之路|音色识别亮相IJCNN,UAE惊艳ICASSP

    一年一度的国际知名会议2021论文评选结果已经相继揭晓,我们的论文《Large-scale singer recognition using deep met...

    QQ音乐技术团队
  • Multilogue-Net:一种用于会话中多模态情绪检测和情绪分析的上下文感知RNN(CS SD)

    会话中的情绪分析和情绪检测是许多实际应用程序的关键,不同的应用程序利用不同类型的数据能够实现合理准确的预测。多模态情绪检测和情绪分析可能特别有用,因为应用程序将...

    用户6853689
  • 金融/语音/音频处理学术速递[9.9]

    【1】 Behavioral Bias Benefits: Beating Benchmarks By Bundling Bouncy Baskets 标题:行...

    公众号-arXiv每日学术速递
  • 利用跨模态自监督技术解决语音嵌入问题(CS SD)

    本文的目标是学习说话人身份的表示,而不需要手动注释数据。为此,我们开发了一种自我监督学习目标,它利用了人脸和视频音频之间的自然跨模态同步。我们的方法背后的关键思...

    用户6853689
  • 金融/语音/音频处理学术速递[12.21]

    【1】 Rainbow Options under Bayesian MS-VAR Process 标题:贝叶斯MS-VAR过程下的彩虹期权 链接:https:...

    公众号-arXiv每日学术速递
  • 金融/语音/音频处理学术速递[12.24]

    【1】 Intra-Household Management of Joint Resources: Evidence from Malawi 标题:联合资源的...

    公众号-arXiv每日学术速递
  • 依图科技声纹识别权威竞赛夺冠,智能语音再下一城

    在奥地利召开的机器语音国际顶会 InterSpeech 2019 上,国际声纹识别权威竞赛 VoxCeleb Speaker Recognition Chall...

    AI科技评论
  • Interspeech 20周年,ASR和SD相关论文提前看

    INTERSPEECH 是语音科学和技术领域最大、最全面的国际学术会议。INTERSPEECH 2019 将在奥地利第二大城市格拉茨(Graz)举办。在 INT...

    机器之心
  • 金融/语音/音频处理学术速递[7.9]

    【1】 On the Selection of Loss Severity Distributions to Model Operational Risk 标...

    公众号-arXiv每日学术速递
  • 基于信息理论的机器学习-中科院自动化所胡包钢研究员教程分享03(附pdf下载)

    【导读】专知于11月24日推出胡老师的基于信息理论的机器学习报告系列教程,大家反响热烈,胡老师PPT内容非常翔实精彩,是学习机器学习信息理论不可多得的好教程,今...

    WZEARW
  • 金融/语音/音频处理学术速递[6.28]

    【1】 Sovereign wealth funds: main activity trends 标题:主权财富基金:主要活动趋势

    公众号-arXiv每日学术速递
  • 人工智能技术在声纹识别方面的应用 | 解读技术

    人工智能技术对于传统产业的推进作用越来越凸显,极大提升了传统产品的商业价值。“听声识我,开口即播”长虹CHiQ5人工智能电视成为全球首款搭载声纹识别的人工智能电...

    用户7623498
  • 金融/语音/音频处理学术速递[6.24]

    【1】 Chebyshev Greeks: Smoothing Gamma without Bias 标题:契比雪夫希腊人:没有偏见地平滑伽马

    公众号-arXiv每日学术速递
  • Melon播放列表数据集:用于基于音频的播放列表生成和标记音乐的公共数据集(CS SD)

    Andres Ferraro, Yuntae Kim, Soohyeon Lee, Biho Kim, Namjun Jo, Semi Lim, Suyon L...

    木樾233
  • 挑战真实场景对话——小爱同学背后关键技术深度解析

    本文来自PaperWeekly和biendata组织的企业AI技术实战讲座。作者为小米人工智能部的崔世起,崔老师以著名的“小爱同学”为实例,详细介绍了全双工关键...

    朴素人工智能
  • 金融/语音/音频处理学术速递[12.16]

    【1】 A fast Monte Carlo scheme for additive processes and option pricing 标题:可加过程和...

    公众号-arXiv每日学术速递

扫码关注腾讯云开发者

领取腾讯云代金券