机器学习模拟人类处理声音将成为可能

引言

麻省理工学院的神经学家开发出一种机器学习系统,可以像人类一样处理语音和音乐。2018年4月19日,麻省理工学院研究人员切尔西·特纳对机器学习人类声音感知技术进行了介绍。

麻省理工学院的研究人员使用被称作深层神经网络的机器学习系统,研发了第一个可以模拟人类听觉表现的模型。

这个模型由许多信息处理单元组成,可以通过大量的数据完成特定的任务,例如可以识别音乐流派。研究人员使用此模型阐明了人类大脑是如何执行相同任务的。“这些模型向我们演示了机器可以模拟对人类非常重要的感知系统,并且达到人类自身能做到的标准,这是以往从未有过的突破。从历史上看,这种类型的感官处理很难理解,部分原因是我们还没有真正的理论基础和恰当的方法来开发一种模型用于感知周围发生的情况。”研究人员乔什麦克德莫特说。

来自麻省理工学院大脑与认知科学系的神经科学助理教授弗雷德里克·A和卡罗尔·J·米德尔顿同样是这项研究的资深专家。该研究出现在2018年4月19日Neuron期刊上,并提供了证据指明人类的听觉皮层被安排在一个分层的组织中,就像视觉皮质一样。在这样的分布中,感官信息会经过一系列的处理阶段,早期处理基本信息,后期处理例如提取单词词义的高级信息。麻省理工学院研究生亚历山大·凯尔和斯坦福大学助理教授丹尼尔·亚明斯是此项研究论文的主要作者,其他作者包括前麻省理工学院访问学生埃里卡和前麻省理工学院博士后萨姆·诺曼海尼埃尔。

1

大脑建模

当深层神经网络在20世纪80年代首次出现时,神经学家希望这种系统可以被用作人类大脑建模;然而,那个时代的计算机没有能力建立足够大的模型演示真实世界的任务,如识别对象或语音。在过去的五年里,计算能力和神经网络技术的进步使得使用神经网络来执行困难的现实世界任务成为可能,并且它们已经成为许多工程应用中的标准方法。与此同时,一些神经学家重新审视了这些系统可能被用来模拟人脑的可能性。亚历山大·凯尔说:“这对神经学来说是一个激动人心的机会,因为我们可以创造出模拟人类感知行为的系统模型,然后深入调查这些模型,并将它们与大脑进行比较,从而得出大脑处理感知信息的工作原理。”

麻省理工学院的研究人员训练他们的神经网络执行两个听觉任务,一个涉及语音,另一个涉及音乐。在语音任务中,研究人员给予该模型成千上万条两秒钟的谈话录音,任务是确定剪辑录音中的单词。在音乐任务中,该模型被要求识别两秒钟音乐片段的类型。任务中的录音都包含了背景噪音,使任务更加接近现实(也更加困难)。在经过成千上万次的试验后,模型学会了像人类听众的大脑一样准确地执行任务,并且随着时间的推移,模型会越来越熟练地完成任务。亚历山大·凯尔说,“我们只是希望它能够学习一些普遍并且基本的声音,但是当你提出一个模型以前从未听过的新声音时,它竟然能很好地感知此声音,后来我们在实践中也证明了此观点的正确性。” 该模型也同样会在人类最容易犯错误的片段上犯和人类相同的错误。

模型中组成神经网络的处理单元可以以多种方式组合在一起,形成不同的架构,从而影响模型的性能。麻省理工学院的研究团队发现,执行这两项听觉任务的最佳模型是将声音处理分为两个阶段。第一个阶段是在语音任务和音乐任务之间共享的,但在此之后,它分成两个分支进行进一步分析——一个用于语音任务的分支,另一个用于音乐类型任务。

2

分层证据

随后,研究人员用他们的模型探索了一个长期存在的关于听觉皮层结构的问题: 它是否按层次划分。在分层系统中,当感官信息流经系统时,一系列的大脑区域会对其进行不同类别的计算。有证据表明,视觉皮层有这种类型的组织。早期区域,被称为初级视觉皮质,对简单的特征如颜色或方向作出反应;后期阶段启用更复杂的任务,如对象识别。然而,检测这种类型的组织是否也存在于听觉皮层中对于人类来说很困难,一定原因是由于没有好的模型可以模拟人类的听觉行为。乔什麦克德莫特说:“如果能构建一个模型用来模拟人类的行为,我们或许能够将不同阶级的模型与不同部位的大脑做比较,并且得到证据证明此部分大脑是否存在分级结构。”

研究人员发现,在他们的模型中,如频率等声音的基本特征在早期阶段更容易提取,随着声音信息被处理并沿着网络进一步移动,提取频率这种基本特征则变得更加困难,但提取如单词这种高级别信息则变得容易。为了观察模型处理声音的各个阶段是否可以重现人类听觉皮层处理声音信息的方式,研究人员使用了功能性磁共振成像技术(fMRI)来测量当大脑处理现实声音时听觉皮层不同区域的表现。随后他们将大脑的表现与模型中处理相同声音时的反应进行比较,发现模型的中级阶段与初级听觉皮层中的活动相对应,后期与主要皮层之外的活动相对应。研究人员称,这些都提供了证据表明听觉皮层可能以分层方式排列,类似于视觉皮层。乔什麦克德莫特说:“我们可以非常清楚地看到初级听觉皮层和其他部位之间的区别。”

为进一步研究这些听觉任务是否可以通过此模型中特定的途径完成,或者是否需要其他单独的途径,研究人员正在计划开发可以执行其他新型听觉任务的模型,如确定特定声音来源位置的模型。此结果将会成为研究大脑如何处理声音的一大重要突破。

内容来源:Massachusetts Institute of Technology. "Machine-learning system processes sounds like humans do: Neuroscientists train a deep neural network to analyze speech and music." ScienceDaily. ScienceDaily, 19 April 2018. .

编译 / Fiona

责编 / 刘爱莲

美编 / 九夏

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180504G12Q4700?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券