为何机器学习识别声音还做不到像识别图片那么容易?

大数据文摘作品,转载要求见文末

作者 | John Mannes

编译团队 |Yawei, Jennifer Zhu,孙雅姗

声音是传递信息的重要方式之一。 大多数开车的人都熟悉汽车皮带打滑的声音。我爷爷甚至能靠耳朵来判断高载火车的刹车问题。还有很多专家都能通过听他们常用机器发出来的声音来检测机器运行的问题。

如果能找到一种自动监听的方法,我们就可以24小时监控我们生活的世界中存在的各种机器。 当我们被通知机器声音发生异常时,我们便可以预测出发动机、铁路基础设施、石油钻井和发电厂的运行故障。

自动监听技术能减少运行事故造成的人员伤亡。尽管最近机器学习领域取得了很大发展,利用机器学习实现自动监听的技术仍处于研发阶段。我们已经获得许多音频数据,但这些数据往往没有关键的分类标签(译者注:即标注每段音频来自正常还是异常的运行情况)。 在深度学习的模型里,这样的“黑箱”问题让我们很难确定某段音频被标记为异常的原因。我们仍然在努力解决真实的机器学习的边缘问题中的难题。。 而且这些音频常常带有比信号更强的噪音,从而限制了我们能从音频数据里提取到的可用于机器学习的特征。

声音的鸿沟

大多数机器学习领域的研究者认为人工智能作为一颗冉冉升起的新星,将征服一个又一个领域,偶尔还能有些影响广泛的大突破。根据这个预测,我们已经征服了图像字幕和语音识别领域,但使用更广泛的机器声音识别仍落在后面。

众多机器学习的突破背后依赖于一个精心组建的数据集。比如:在研究对象识别的时我们可以用 ImageNet(译者注:ImageNet是一个被广泛应用于图像识别研究的图像数据库),而在研究语言数据联盟和语音识别时则可以参考GOOG-411(译者注:GOOG-411是Google公司在2007年推出的一个以语音识别为基础的商业性电话公司咨询服务,该服务已于2010年11月12日终止)。但要找到一个合适的数据集来区分列车门关闭和卧室门关闭的声音仍然具有一定的挑战性。

Deepgram(一家帮助其他公司搜索和分类音频数据的创业公司)的首席执行官Scott Stephenson认为:“如果你能正确地构建模型,深度学习可以做很多事情。你所需要的只是很多机器的数据。十五年前还没有那些好的数据集的时候,语言识别技术也没有现在这么成熟。 ”

尽管亚马逊土耳其机器人(AmazonMechanical Turk)上有大量公众可以使用的带标签的狗和猫的图片(译者注:这些大规模猫狗图片数据集已被广泛用于深度学习的研究),但要收集100,000个滚珠轴承的声音和那些带标记的猫狗数据集是完全不同的。(译者注:亚马逊土耳其机器人是一个Web服务应用程序接口(API),开发商通过它可以将人的智能整合到远程过程调用(RPC)。)

这些问题已经折磨着单一用途的声学分类器,而更加难以实现的目标是建造一个可用于识别所有的声音(而不仅仅是建一个区分这些门的声音的模型)的工具。

通过内省欣赏

人类的归纳能力使我们特别擅长给声音进行分类。 回想一下上一次你听到一辆救护车从你的公寓楼下冲过, 即使多普勒效应造成声波的变化频率会影响你听到的警笛的音调,你仍然能很容易地识别出冲过的是辆救护车。

然而研究人员需要发挥出创造性才能把这个过程自动化。其中一个原因是从收集移动物体(声音)信息的固定传感器中提取的特征是有限的。

缺乏源分离可能使问题进一步复杂化。(译者注:在数字信号处理领域,源分离问题指从几个信号混合成的合成信号中恢复原始的分量信号。)即使是人类自己也不容易分离这些混合的声音信号。如果你曾经尝试在一个喧哗的餐厅里试图听清楚其中一个桌子上的对话,你就知道理解混合在一起的声音有多么困难。

英国萨里大学(University ofSurrey)的研究人员能使用深度卷积神经网络(deepconvolutional neural network)在许多歌曲中分离人声和背景乐器。他们的诀窍是把50首歌拆分成的单个乐器和人声来训练他们的模型。然后将这些声轨切割成每段20秒来创建许多个谱图。利用这50首歌的谱图,他们的模型能在新的歌曲中分离人声和背景乐器。

但这仅仅是把一首歌分成五个易于识别的部分。如果我们要记录一个近60英尺高(译者注:约18米高)的MANB&W 12S90ME-C Mark 9.2型柴油发动机的声音,并要求机器学习模型切分出来自发动机各元件的声音,就不是一件容易的工程了。

声音领域的开拓者

Spotify是一家雄心勃勃地要把机器学习应用到音频信号上的公司。 虽然Spotify仍然依赖于其他数据堆,但他们的推荐特征里也包括了歌曲本身的信号。

音乐推荐传统上依赖于协同过滤(collaborative filtering)的启发。(译者注:协同过滤是机器学习中基于对其他相似顾客对哪些产品感兴趣的分析来推荐给某位特定顾客他可能感兴趣的东西的一种模型。)这些基本模型推荐给你与你有相似喜好的用户所播放的歌曲。

上图,根据Spotify,滤波器以不同频率的红色和蓝色波带来表示声音的内容。倾斜表示上升和下降的音调。

在可控的音乐环境之外,工程师提出了大致两类解决方案。第一个我把它称作“定制解决方案”模型,公司从客户端收集数据,唯一目的是识别预设的声音范围。实施这个方案如同“建造一只熊”,成本昂贵,通常为工业应用。

第二种方法是一种“捕捉”可以标记任何声学异常的深度学习模型。这些模型通常需要专业人士手动分类声音,然后进一步训练模型去寻找什么。随着时间的推移,这些系统需要越来越少的人为干预。

一家名为“3D信号”的公司正在结合这两种方法进行创业。该公司在旋转设备的声学异常检测方面拥有专利。这些设备包括电动机、泵、涡轮机、齿轮箱和发电机等。

3D信号公司的首席执行官Amnon Shenfeld说:“我们构建了一个非常庞大的架构,将大量分布式机器连接到我们的监控平台,当这些机器发生故障时,我们的算法会检测到这些故障。

上图,MAN B&W12S90ME-C Mark 9.2型柴油发动机

他们也利用现有工程师对特别重要的问题进行分类。如果技术人员识别到问题,他们可以标记为声学异常,这有助于训练学习算法以便在未来区分这些类型的声音。

另一家公司OtoSense则在其网站上提供了一个“设计实验室”。 客户可以查找他们想要的识别特定声音事件的样板,公司将提供一个可以满足他们特定需要的软件平台。

预测性维护不仅是可实现的,而且将随时可以使用。像3DSignals和OtoSense这样的公司都瞄准了这个领域:利用商品化的物联网传感器来帮助用户准确无误地替换刚出问题的部件,从而避免了代价高昂的停机时间。

明天的机器

在未来的几年内,我们将为广泛的声音检测问题提供解决方案。新的声学分析系统将跟踪机器的生命周期成本,并帮助企业估计未来的预算。

ATS咨询公司(该公司从事噪声和振动分析工作)的工程师ShannonMcKenna表示:“美国联邦运输管理局(FederalTransit Administration)强烈推动交通资产管理(Transit Asset Management)的状态评估。我们认为这是一种帮助运输机构为其铁路系统提供状态评估指标的方法。“

除了像轮哨声这样的短路指示器,铁路监控工程师开始陷入如同在干草堆里寻找一个漂亮的粗糙的针头这样的问题。 McKenna解释说,普通声信号只代表大约50%的复杂铁路系统可能面临的问题。与规范性检查的框架相反,真正的风险管理需要一个通用系统 ––没有人希望遇到由于罕见情况而导致的灾难。

但我们要想实现可以识别任何声音的广义分类器仍有很长的路要走。除非在算法上取得突破,我们将不得不分段解决问题。我们将需要研究人员建造出用于地下地铁系统、人类呼吸系统和关键能源基础设施的声音分类器,以帮助监控可能发生的事故。

来源:https://techcrunch.com/2017/01/29/the-sound-of-impending-failure/

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2017-02-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏企鹅号快讯

PyTorch一周年战绩总结:是否比TensorFlow来势凶猛?

选自PyTorch 机器之心编译 今天 PyTorch 刚好一周年。自发布以来,由于调试、编译等多方面的优势,它成为 2017 年热度极高的框架之一。本文内容介...

24580
来自专栏AI科技评论

学界 |「眼」来助听:谷歌视觉-音频分离模型解决「鸡尾酒会效应」

Google Research 软件工程师发表了可解决「鸡尾酒会效应」视觉-音频语音识别分离模型。 AI 科技评论按:人类很擅长在嘈杂的环境下将其他非重点的声...

45170
来自专栏AI研习社

Tensorflow框架平台的综合对比 | Tensorflow 最全资料汇总【3】

【AI研习社】关注AI前沿、开发技巧及技术教程等方面的内容。欢迎技术开发类文章、视频教程等内容投稿,邮件发送至:zhangxian@leiphone.com 作...

36980
来自专栏PPV课数据科学社区

TensorFlow产品经理:机器学习如何改变未来十年的软硬件?

本文为你分享Google产品经理关于机器学习工具的讲座概要。 最近,Google Brain员工,TensorFlow产品经理Zak Stone在硅谷创业者社群...

29640
来自专栏CSDN技术头条

大数据时代需要转变的思维

大数据时代要转变的思维: 要分析所有数据,而不是少量的数据样本 要追求数据的纷繁复杂,而不是精确性 要关注事物的相关关系,而不是因果关系 1. 分析所有数据,而...

22170
来自专栏新智元

Ian Goodfellow:我最大的失败是用无监督解决计算机视觉的监督学习问题

18740
来自专栏人工智能

生成人工智能:创意专家新的强大工具

人工智能可以以惊人的速度,效率和逼真度生成新的数据模式。在过去的几年里,人工智能通过算法生成可以以数字形式呈现的任何对象已经司空见惯。到2019年,大多数领先的...

21260
来自专栏AI科技评论

开发 | Facebook 的“自然语言理解”如何让Messenger更懂人类?(6500字演讲全文)

AI科技评论按:Facebook的AML和FAIR团队合作进行自然语言处理对自然语言理解进行着合作研究。在2017年4月19日举办的F8开发者大会上,Faceb...

37090
来自专栏PPV课数据科学社区

如何看待和学习人工智能?这是五位哈佛博士生的AMA

最近,五位哈佛的在读博士生集体来到著名社区reddit,展开一场围绕人工智能和认知科学的AMA(Ask Me Anything)。 简单介绍一下这几位博士生:R...

36050
来自专栏新智元

人工神经网络完爆人类的6大领域:看车都能预测选举

编辑: frances 【新智元导读】来自Venturebeat的盘点,人工智能都在哪些领域超越了人类?欢迎补充。 目前,不同于一次处理多个事物的人脑,机...

42090

扫码关注云+社区

领取腾讯云代金券