业界 | 百度推出 AI 转录应用 SwiftScribe，由 DeepSpeech 2加持

AI科技评论

发布于 2018-03-12 11:49:47

7990

发布于 2018-03-12 11:49:47

AI科技评论消息，百度硅谷研究院于 3 月 14 日推出了一款基于人工智能的转录应用 SwiftScribe。

根据 SVAIL 的官网消息，AI科技评论了解到，SwiftScribe 基于百度于 2015 年年底推出的语音识别产品 Deep Speech2，其神经网络通过输入数千小时的标记音频数据，从中学习特定的单词与词组。

用户目前在转录过程中面临的最大问题在于不连续性（discontinuity），针对这一问题，除了 ASR 技术外，百度团队在快捷键与人机交互方面进行创新。

「通过百度最先进的语音识别技术与灵活的编辑工具，SwiftScribe 能够帮助人们快速轻松地转录语音记录，提升生产力并简化工作流程。」

而这也是百度 SVAIL 所大力推崇的优势所在：在用户转录及编辑的过程中，系统能够从人身上「偷师」，并以此提升自己的转录水平。「这样的端到端训练让 SwiftScribe 得以区别于目前市面上的其它产品。」

如果想要精确度更高的转录效果，一小时的音频需要花费 4-6 小时进行转录，每分钟收费一美元，而采用 SwiftScribe，将会缩短 40% 的转录时间。

百度推出 SwiftScribe 主要面向经常需要使用转录功能的企业及个人，甚于它的使用广泛性，SwiftScribe认为能够让一大批用户受益，包括医学健康、法律部门、商业媒体等领域。

目前百度开放了 30-50 个测试名额，具体可参看 http://swiftscribe.ai/ 或发邮件到 swiftscribe@baidu.com 了解。

既然是基于 Deep Speech 而构建的转录系统，让我们和AI科技评论一同简单回顾下百度的语音识别研发历程：

在2014年底，百度团队发布了第一代深度语音识别系统Deep Speech，系统采用了端对端的深度学习技术，当时实现了提高嘈杂环境下的英语识别准确率，实验显示比谷歌、微软及苹果的语音系统的出错率要低10%。
而在2015年8月，百度研究院新增了汉语的识别，准确率高达94%。这也让端到端的深度学习算法成为语音识别提升最重要的手段之一。
9月份的百度世界大会上，吴恩达也在期间展示了新一代的百度语音识别技术，验证在较为嘈杂的情况下，机器识别已经超过人类。
2015年年底，百度研究院又发布了论文推出Deep Speech2，它能够通过深度学习网络识别嘈杂环境下的不同语言，所应用的HPC技术将识别速度提升了7倍。
根据研究院的官方消息，HPC技术目前已在今年2月成功应用于深度学习中。

本文参与腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2017-03-14，如有侵权请联系 cloudcommunity@tencent.com 删除