业界 | IBM 语音识别新方向:仿生蝙蝠耳能用声纳精准“聆听”

蝙蝠使用生物声呐,为夜晚在丛林中飞行导航。他们的超声波脉冲,可以比人造声呐装置更精确地对声音进行定位。为复制、驾驭这种能力,IBM 学院奖获得者 Rolf Müller 教授协同他在弗吉尼亚理工学院(Virginia Tech)的团队,设计了一种人造蝙蝠耳。

Rolf Müller 的研究引起了 IBM 的注意。IBM 专家韩金萍(音译)的神经计算团队,和 IBM Watson 语音专家崔晓东(音译)和他的同事, 看到了 Müller 教授人造“动态外耳”(dynamic peripheral,蝙蝠可转动的外耳使它们的生物声呐更加准确)的潜力 ,并希望借此提高人类语音理解的能力。他们把 Müller 的博士生 Anupam Gupta 纳入团队,一同他们探索人造蝙蝠仿生耳在语音处理的应用。

他们发现,这些仿生耳不仅是很有效的声呐装置,对语音识别同样能起到作用

模仿菊头蝠的人造耳

研究团队根据蝙蝠改变耳朵形状的能力,仿制了一个动态接收系统。它能提高自动语音识别系统(ASR)的精确度,还能更准确地对谈话者定位。韩金萍将在他们的论文《受菊头蝠启发的接收动力学把动态特点加入语音信号》,及本周美国声学协会第 172 届会议上展示了这一发现。

这些动态系统有潜力发展成让使用者“像蝙蝠那样聆听”的语音接收设备。这会改进现有的助听器和指向性传声器。并可应用于任何需要对声音来源进行定位、理解的场景。

设想你身处一个忙碌、吵闹的集市。听清楚你旁边的人在说什么都可能是一项挑战。有了这项技术,同伴的声音就能被一个可变形的助听器识别,然后翻译成你能听懂的话。它还可以过滤掉闹市的杂音,和其他人嗡嗡的说话声。

仿生蝙蝠耳的生物声呐算法

蝙蝠的超声波具有 10 – 200 kHz 的频率,而人耳只能识别 20 Hz – 20 kHz 的声音。因此对我们来说它声调太高,大多数是听不到的。为了驾驭蝙蝠的生物声呐频率和精度,Gupta 加入韩金萍团队编写能够把语音讯号转化为超声波脉冲的代码——然后再把超声波转化为我们能够听到的正常语言。

这首先需要建立一个数据库。为了尽可能地简化,韩金萍团队使用了卡内基梅隆大学开源数据库中,11 个美式英语朗读者的英语字母和数字的发音。

举例子,以字母“A” 或者数字“1”形式出现的数据,被麦克风接收,然后转化为超声波信号。超声波扬声器播放该信号。随后,具有“动态外耳”的人造蝙蝠耳接收信号。最后,软件把超声波信号转化为原始数据——字母“A” 或者数字“1”。

现实(闹市)中的人造耳朵

虽然只包含字母和数字的声音信号数据库有较大限制,但通过分析它,韩金萍团队表示人造耳用“动态、方向性的的时间频率模型”丰富了语音信号。下一步,研究人员把人造耳处理后的声音与原始语音进行对比,来衡量人造耳的精度。因此,他们把原始语音数据和经人造耳处理的声音数据,放入分类器( classifier )中进行识别。67% 的语音信号能被成功识别出来。而在没有动态外耳的对照组中,只有 35% 的声音数据被识别

有了更多的可用分析数据后,研究员们将着手用行业基准来对该系统进行测试,并开发仿生学习算法。再或者,将来他们可能会开发一个“聆听” app,把智能手机麦克风变成接入物联网的指向性麦克风,来帮助使用者选择现实中他想要听到的声音。IBM 研究人员认为,实现它并不是太遥远。

Via IBM

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2016-11-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

业界 | 神经翻译系统水平远超谷歌、微软,德国创业公司发布翻译器DeepL

机器之心报道 参与:路雪、李泽南 近日,一家名为 DeepL 的创业公司发布了自己的神经翻译工具,引起了业内关注。据称在盲测与 BELU 分数测试中,这款全新翻...

34711
来自专栏算法channel

@all, 离2019年还有4.5个月,4个月前的今天送的那6本书,你们读透1本了?

3月的今天,我第一次在公众号内送了5本甄选的书和1个TensorFlow的斯坦福PPT完整教程。

980
来自专栏媒矿工厂

利用人工智能提升足球直播效果

人工智能技术代表着未来无限的可能性,已经在很多领域带来巨大的冲击。在足球直播这一领域,版权方需要提供更多更优质的内容以应对日益增长的多元化需求,因此急需提高运营...

1542
来自专栏量子位

痴人、信徒、先驱:深度学习三巨头等口述神经网络复兴史

现代神经网络、机器学习等AI技术背后的思想,可以追溯到第二次世界大战行将结束之际。彼时,学者们开始构建计算系统,旨在以类似于人类大脑的方式存储和处理信息。

1162
来自专栏织云平台团队的专栏

如何从零到一地开始机器学习?

作为一个数学系出身,半路出家开始搞机器学习的人,在学习机器学习的过程中自然踩了无数的坑,也走过很多本不该走的弯路。于是很想总结一份如何入门机器学习的资料,也算是...

68514
来自专栏企鹅号快讯

如何告诉手机我是“我”呢?

2013年,苹果机iphone5S让指纹识别在手机上普及,它告诉各大手机厂商,指纹可以这么玩。同样苹果它也让指纹识别从手机上消失。譬如,今年苹果就推出了支持面部...

1828
来自专栏AI科技大本营的专栏

AI Insight:放弃幻想,搞 AI 必须过数学关

从2012年“大数据”概念兴起到2016年人工智能大热,已经四五年时间了,该看的热闹看到了,该爆炒的话题炒够了,该沉淀的也沉下来了。现在越来越多的人已经放下质疑...

3569
来自专栏大数据文摘

基于面部表情的情绪识别

2625
来自专栏ATYUN订阅号

【科技】AI领域新突破!研究人员使用人工神经网络来重建全息图

加州大学洛杉矶分校的研究人员发布了两项新的研究,主要集中使用人工神经网络来重建全息图。这种技术不仅是全息技术的进步,它所产生的微观图像很可能会被应用到医学领域上...

34713
来自专栏新智元

【万赟】从图灵测试到深度学习:人工智能60年

【新智元导读】美国休斯敦大学副教授万赟回溯人工智能60年历史,对比理性和感性两大流派各自轨迹,指出在目前这轮以深度学习为代表的人工智能新高潮中,各大企业对收购和...

2966

扫码关注云+社区