前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Google开源新AI模型,语音区分准确率92%创新高 | 论文+GitHub

Google开源新AI模型,语音区分准确率92%创新高 | 论文+GitHub

作者头像
量子位
发布2018-12-13 15:25:35
4730
发布2018-12-13 15:25:35
举报
文章被收录于专栏:量子位量子位
雷刚 发自 凹非寺 量子位 报道 | 公众号 QbitAI

一个AI音箱,认得每一个说话的对象。

所谓“千人千面”,此之谓也。小孩说话,它就依照小孩的喜好和模式,老人票友,它的智能推荐也相应变化……

总之一个音箱,对每一个跟他说话的人,都能分辨清楚——对人类再正常不过的能力,对AI却并不容易。

幸好,Google今天把这种AI正在追求的能力,又往前推进了一步。

而且论文放出,核心算法开源,就等你也来试试了。

RNN模型

Google的新方法,是通过递归神经网络(RNN)模拟说话者的输入,只要开始发言,每个说话者都会建立一个属于他的RNN模型,然后在过程中,不断更新相应的RNN状态。

加入我们正在进行一场多人会议,音频输入是线性的,但在Google这个模型中,会按照不同音色进行不同标注。

黄色代表一个发言者,红色又是另一个,然后黄色嘉宾发言者又接着发言了。

之前在进行类似的研究时,通常基于聚类算法,都是无监督学习的方法,因此给每个发言者打标签不容易。

另外,发言者混合交织发言,让无监督学习的模型最终效果亦打折扣。

但RNN不同,在这次研究者中,Google同学专门在中餐厅进行了训练(其中几位作者都是中国人)。

在中餐厅中,发言人未知且人数不确定。然后在开始发言后,他们一旦被识别,就会有对应的RNN模型,每个人都被建了一个,然后相应发言者有更新,就会在他的RNN模型上更新。

效果

论文中称,他们把核心算法放在数据集NIST SRE 2000 CALLHOME上验证,最后得出的在线分类错误率(DER)低至7.6%。

更早之前,他们旧方法的错误率还是8.8%.

那92.4%的准确率意味着什么呢?

对实时应用程序而言,已足够高了。

意义

或许你会问了,有啥用嘞?

智能音箱自不必说了,如果你家音箱能认得你家每一个人,自然个性化的AI体验会好很多很多。

另外在很多会议速记、影视作品配字幕配音的过程中,也能应用。

你可能也会用过一些所谓的“AI速记”产品,但一到多人会议就惨不忍睹了。

所以Google这次开源,可能会帮到他们。

至于更多实现或应用,感兴趣的盆友,欢迎自己上手~

传送门

论文地址:

https://arxiv.org/abs/1810.04719

开源地址:

https://github.com/google/uis-rnn

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-11-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • RNN模型
  • 效果
  • 意义
  • 传送门
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档