专栏首页ATYUN订阅号Alexa研究人员通过减少数据不平衡,可将AI系统错误率降低30%

Alexa研究人员通过减少数据不平衡,可将AI系统错误率降低30%

平衡的训练数据是分类器的主要障碍,当一类样本不成比例地对语料库做出贡献时,分类器自然会比其他类型更频繁地遇到它,因此有可能对它产生偏见。

亚马逊Alexa部门的研究人员表示,他们已经开发出一种技术,可以将一些数据不平衡的系统的错误率降低多达30%。

他们在最近发表的一篇论文“Deep Embeddings for Rare Audio Event Detection with Imbalanced Data”中描述了它,计划于今年春天在布莱顿举行的Acoustics, Speech, and Signal Processing国际会议上发表。

通常情况下,数据科学家通过在代表性不足的类中增加数据权重来解决非代表性样本问题,例如,如果一个特定的类的训练数据是另一个类的三分之一,那么它的每个示例的计算量将是另一个类的三倍。

但是,Alexa Speech组的科学家Ming Sun,也是该论文的第一作者,提倡不同的方法。团队训练了一个AI系统,以向量形式为每个类别生成嵌入,并最大化这些向量之间的距离。

为了防止嵌入不平衡,大于任何其他数据类的数据类被分成与最小类的大小相似的聚类。为了缩短测量数据项之间距离所需的时间,系统设计用于保持质心的连续测量。

“通过每次新的嵌入,我们的算法测量它与聚类的质心的距离,比完全测量成对距离更有效的计算,”Sun在博客文章中解释道。

完全训练的嵌入AI的输出被用作将标签应用于输入数据的分类器的训练数据。然后对来自行业标准数据集的四种声音进行测试:狗吠声,婴儿哭声,枪声和背景声音。

使用长短时记忆(LSTM)网络进行的嵌入式实验显示,性能提高了15%到30%,总体性能提高了22%。在一个更大、更慢但更精确的卷积神经网络上,误差减少了6%到19%,这取决于数据类的比例。

本文分享自微信公众号 - ATYUN订阅号(atyun_com),作者:关注人工智能的

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-03-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 迁移学习:如何在自然语言处理和计算机视觉中应用?

    在这篇文章中,我将讨论两个关于迁移学习的应用:NLP(自然语言处理)和CV(计算机视觉)。并且我会分别在这两个领域提供一个范例。 NLP 现在很多NLP管道都在...

    AiTechYun
  • 数据清理的简要介绍

    清理数据应该是数据科学(DS)或者机器学习(ML)工作流程的第一步。如果数据没有清理干净,你将很难在探索中的看到实际重要的部分。一旦你去训练你的ML模型,他们也...

    AiTechYun
  • 英特尔开发模型训练新技术,效率更高且不影响准确性

    一般而言,AI模型的大小与其训练时间相关,因此较大的模型需要更多的时间来训练。通过修剪可以优化数学函数(或神经元)之间的连接,从而减小其整体尺寸而不会影响准确性...

    AiTechYun
  • BDTC 2017 | 深度剖析大数据在交通旅游领域的探索与实践

    12月7-9日,由中国计算机学会主办,CCF 大数据专家委员会承办,的2017中国大数据技术大会(BDTC 2017),在北京新云南皇冠假日酒店隆重举行。本次大...

    挖掘大数据
  • 交通大数据为啥总是治不了堵?

    光有大数据,却没有足够的数据分析能力和人才储备,交通大数据要想真正应用到实处,只能靠“大海捞针”?‍‍‍‍

    DT数据侠
  • python接口测试之http请求

    python的强大之处在于提供了很多的标准库,这些标准库可以直接调用,本节部分,重点学习和总结在接口测试中Python的Http请求的库的学习。

    无涯WuYa
  • EMNLP 2019 | 大规模利用单语数据提升神经机器翻译

    编者按:目前,目标语言端的无标注单语数据已被广泛应用于在机器翻译任务中。然而,目标语言端的无标注数据一旦使用不当,反而会给模型结果带来负面影响。为了有效利用大规...

    AI科技大本营
  • Android程序静默安装安装后重新启动APP的方法

    之前boss提出一个需求,运行在广告机上的app,需要完成自动升级的功能,广告机是非触摸屏的,不能通过手动点击,所以app必须做到自动下载,自动安装升级,并且安...

    砸漏
  • 简单的运动模糊效果实现

    逍遥剑客
  • 今日头条屏幕适配方案落地研究

    大家好,现在给大家推荐一种极低版本的 Android 屏幕适配方案,就是今日头条适配方案,“极低成本”这四个字正是今日头条的适配文章标题。

    终端研发部

扫码关注云+社区

领取腾讯云代金券