专栏首页arxiv.org翻译专栏从明显的差异中学习可区分的感知音频度量(CS SD)
原创

从明显的差异中学习可区分的感知音频度量(CS SD)

许多音频处理任务的评估依赖于耗时且昂贵的主观评估。人们努力创建客观的度量标准,但是现有的度量标准与人类的判断关系不大。在这项工作中,我们通过在一个新收集的数据集(JND)上拟合一个深度神经网络来构建一个可微度量,在这个数据集中,人们可以标注一对音频剪辑是否相同。通过改变不同类型的差异,包括噪声、混响和压缩伪影,我们能够了解到一个与人类判断校准良好的度量。此外,我们通过训练一个神经网络来评估这个度量,使用这个度量作为一个损失函数。我们发现,用我们的度量方法简单地替换现有的损失,在主观两两比较的去噪方面有显著的改进。

原文题目:A Differentiable Perceptual Audio Metric Learned from Just Noticeable Differences

原文:Assessment of many audio processing tasks relies on subjective evaluation which is time-consuming and expensive. Efforts have been made to create objective metrics but existing ones correlate poorly with human judgment. In this work, we construct a differentiable metric by fitting a deep neural network on a newly collected dataset of just-noticeable differences (JND), in which humans annotate whether a pair of audio clips are identical or not. By varying the type of differences, including noise, reverb, and compression artifacts, we are able to learn a metric that is well-calibrated with human judgments. Furthermore, we evaluate this metric by training a neural network, using the metric as a loss function. We find that simply replacing an existing loss with our metric yields significant improvement in denoising as measured by subjective pairwise comparison.

原文作者:Pranay Manocha, Adam Finkelstein, Zeyu Jin, Nicholas J. Bryan, Richard Zhang, Gautham J. Mysore

原文地址:https://arxiv.org/abs/2001.04460

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 通过元学习进行小概率声事件检测(CS SD)

    本文研究了小波声事件检测技术。少镜头学习能够用非常有限的标记数据检测新事件。与计算机视觉等其他研究领域相比,语音识别的镜头学习研究较少。我们提出了少镜头AED问...

    用户6853689
  • 利用自回归模型进行网络流量预测(CS NI)

    原文题目:On Network Traffic Forecasting using Autoregressive Models

    用户6853689
  • 言语情绪识别(CS SD)

    在本文中,我们基于情绪识别系统对各种演讲方法进行了广泛的比较。从数据库瑞尔森视听记录情感的演讲和歌曲(RAVDESS)对音频进行了分析。具有诸如功能如日志梅尔谱...

    用户6853689
  • 从明显的差异中学习可区分的感知音频度量(Sound)

    许多音频处理任务的评估依赖于次客观评估,既耗时又费钱。人们已经努力创建客观的度量标准,但现有的度量标准与人类的判断关系不大。在这项工作中,我们通过将深度神经网络...

    用户6869393
  • Power Pivot概念(3)—DAX代码的书写格式

    参考引用字段方式,使用中括号。因为和字段名(列名)引用一样的写法,所以度量值名称和字段名称不能重复。例:

    逍遥之
  • 【易错概念】以太坊存储类型(memory,storage)及变量存储详解

    在 Solidity 中,有两个地方可以存储变量 :存储(storage)以及内存(memory)。Storage变量是指永久存储在区块链中的变量。Memory...

    辉哥
  • Spot和Atlas除了炫技还能做什么?波士顿动力CEO深度解答“网红机器人”的一切

    在世界各地的营销部门完全弄懂“人工智能”这个概念之前,它总是会让人联想到机器人。波士顿动力成为机器人领域最知名的公司之一,很大程度要归功于其记录机器人动作的病毒...

    大数据文摘
  • CTFweb类型(十九)15位、7位可控字符下的任意命令执行

    ​​某些特殊情况下命令执行的Getshell中对应某个函数的内容可控,可控字符长度分为长可控和短可控。我们先来看15个字符可控。

    牛油果
  • 科大讯飞年度发布会:讯飞超脑摘取认知智能桂冠,输入法领衔AI+ (刘庆峰、胡郁演讲实录)

    【新智元导读】作为中国人工智能产业的标杆企业,科大讯飞2016年度发布会受到业界高度瞩目。11月23日北京国家会议中心,科大讯飞携产业链合作伙伴的人工智能+黑科...

    新智元
  • Python全栈开发之---装饰器

    你觉得碍眼,python的开发者也觉得碍眼,所以就为我们提供了一句语法糖来解决这个问题!

    py3study

扫码关注云+社区

领取腾讯云代金券