专栏首页arxiv.org翻译专栏从明显的差异中学习可区分的感知音频度量(Sound)
原创

从明显的差异中学习可区分的感知音频度量(Sound)

许多音频处理任务的评估依赖于次客观评估,既耗时又费钱。人们已经努力创建客观的度量标准,但现有的度量标准与人类的判断关系不大。在这项工作中,我们通过将深度神经网络拟合到一个新收集的数据集上来构建一个可微的度量,在这个数据集上,人们可以对一对音频剪辑是否相同进行注释。通过改变不同的类型,包括噪声、混响和压缩伪影,我们能够了解一个与人类判断校准良好的度量。此外,我们通过训练一个神经网络来评估这个度量,使用这个度量作为一个损失函数。我们发现,用我们的度量方法简单地替换现有的损失,在去噪方面有显著的改进,这是通过分组两两比较来衡量的。

原文题目:A DIFFERENTIABLE PERCEPTUAL AUDIO METRIC LEARNED FROM JUST NOTICEABLE DIFFERENCES

原文:Assessment of many audio processing tasks relies on subjective evaluation which is time-consuming and expensive. Efforts have been made to create objective metrics but exist- ing ones correlate poorly with human judgment. In this work, we construct a differentiable metric by fitting a deep neural network on a newly collected dataset of just-noticeable differences (JND), in which humans annotate whether a pair of audio clips are identical or not. By varying the type of differences, including noise, reverb, and compression artifacts, we are able to learn a metric that is well-calibrated with human judgments. Furthermore, we evaluate this metric by training a neural network, using the metric as a loss function. We find that simply replacing an existing loss with our metric yields significant improvement in denoising as measured by subjective pairwise comparison.

原文作者:Pranay Manocha, Adam Finkelstein, Zeyu Jin, Nicholas J. Bryan, Richard Zhang, Gautham J. Mysore

原文链接:https://arxiv.org/abs/2001.04460

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 社区发现的深度学习:进步、挑战和机遇(cs.SI)

    由于社区代表着相似的观点、相似的功能、相似的目的等,因此社区设计在科学调查和数据分析中都是一个非常重要和有用的工具。然而,随着深度学习技术的发展,处理高维图数据...

    用户6869393
  • 自我监督学习的音视频扬声器二值化(Multimedia)

    主讲人二值化,即寻找特定主讲人的语音组,在视频会议、人机交互系统等以人为中心的应用中得到了广泛的应用。在这篇论文中,我们提出一种自监督的音视频同步学习方法来解决...

    用户6869393
  • 在HCI中传播研究新闻:感知的危害、操作方法和创新机会(Multimedia)

    大众传媒为研究人员提供了向公众传播研究成果和趋势的重要机会。然而,研究人员也认为,他们的工作可能在大众媒体上被误解,从而产生了公众对HCI研究的无意识的误解。我...

    用户6869393
  • 从明显的差异中学习可区分的感知音频度量(CS SD)

    许多音频处理任务的评估依赖于耗时且昂贵的主观评估。人们努力创建客观的度量标准,但是现有的度量标准与人类的判断关系不大。在这项工作中,我们通过在一个新收集的数据集...

    用户6853689
  • Power Pivot概念(3)—DAX代码的书写格式

    参考引用字段方式,使用中括号。因为和字段名(列名)引用一样的写法,所以度量值名称和字段名称不能重复。例:

    逍遥之
  • 【易错概念】以太坊存储类型(memory,storage)及变量存储详解

    在 Solidity 中,有两个地方可以存储变量 :存储(storage)以及内存(memory)。Storage变量是指永久存储在区块链中的变量。Memory...

    辉哥
  • Spot和Atlas除了炫技还能做什么?波士顿动力CEO深度解答“网红机器人”的一切

    在世界各地的营销部门完全弄懂“人工智能”这个概念之前,它总是会让人联想到机器人。波士顿动力成为机器人领域最知名的公司之一,很大程度要归功于其记录机器人动作的病毒...

    大数据文摘
  • CTFweb类型(十九)15位、7位可控字符下的任意命令执行

    ​​某些特殊情况下命令执行的Getshell中对应某个函数的内容可控,可控字符长度分为长可控和短可控。我们先来看15个字符可控。

    牛油果
  • 科大讯飞年度发布会:讯飞超脑摘取认知智能桂冠,输入法领衔AI+ (刘庆峰、胡郁演讲实录)

    【新智元导读】作为中国人工智能产业的标杆企业,科大讯飞2016年度发布会受到业界高度瞩目。11月23日北京国家会议中心,科大讯飞携产业链合作伙伴的人工智能+黑科...

    新智元
  • Python全栈开发之---装饰器

    你觉得碍眼,python的开发者也觉得碍眼,所以就为我们提供了一句语法糖来解决这个问题!

    py3study

扫码关注云+社区

领取腾讯云代金券