前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Github 项目推荐 | 阿里开源自主研发的 DFSMN 语音识别模型,引谷歌论文引用

Github 项目推荐 | 阿里开源自主研发的 DFSMN 语音识别模型,引谷歌论文引用

作者头像
AI研习社
发布2018-07-26 15:44:12
2.1K0
发布2018-07-26 15:44:12
举报
文章被收录于专栏:AI研习社AI研习社

近日,阿里巴巴达摩院机器智能实验室语音识别团队,推出了新一代语音识别模型—— DFSMN,不仅被谷歌等国外巨头在论文中重点引用,更将全球语音识别准确率纪录提高至 96.04%(基于世界最大的免费语音识别数据库LibriSpeech)。

阿里在GitHub平台上开源了自主研发的DFSMN语音识别模型

这支平均年龄只有 30 岁的团队还宣布,即日起向全世界企业与个人开源此次打破全球语音识别纪录的 DFSMN 模型,使全球开发者都能共享这一成果,共同推进人工智能技术的发展。这也使 DFSMN有望继传统的 LSTM 模型后,成为全球语音识别领域最主要的声学识别模型之一,全球语音识别准确率也有望总体提高 10%。

著名语音识别专家,西北工业大学教授谢磊表示:「阿里此次开源的 DFSMN 模型,在语音识别准确率上的稳定提升是突破性的。是近年来深度学习在语音识别领域最具代表性的成果之一。对全球学术界和AI技术应用都有巨大影响。」

语音识别是人机交互中的核心技术,在智能音响、智能家居、机器人及自动驾驶等领域都有广泛应用。在刚刚结束的云栖大会武汉峰会上,装有 DFSMN 语音识别模型的「AI收银员」在与真人店员的 PK 中,在嘈杂环境下准确识别了用户的语音点单,在短短 49 秒内点了 34 杯咖啡。此外,装备这一语音识别技术的自动售票机也已在上海地铁「上岗」。

DFSMN 语音识别模型,对比目前业界使用最为广泛的 LSTM 模型,训练速度更快、识别准确率更高。采用全新 DFSMN 模型的智能音响或智能家居设备,相比前代技术深度学习训练速度提到了 3 倍,语音识别速度提高了 2 倍。

Github 链接:

https://github.com/alibaba/Alibaba-MIT-Speech

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-06-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI研习社 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档