人工智能学习篇5:智能语音开源框架

智能语音是实现人机语言通信的技术,主要包括语音识别和语音合成。语音识别是将人的语音转换为文本的技术。语音合成是把文本信息转化为语音信号的技术。

01.概述

语音识别的研究开始于1952年贝尔实验室的研究人员实现的针对特定说话人的英语数字孤立词语音识别系统。60年代以后,RCA实验室提出并实现了解决语音时长不统一的归一化打分机制。前苏联的Vintsyuk提出把两个长度不同的语音进行时间对齐的动态规划算法。70年代,语音识别研究重心转到了研究大词表连续语音识别技术。90年代以后,HMM整体框架设计成为该领域研究的基础。目前,深度学习已经广泛应用到语音识别的研究当中。图1总结了语音识别发展过程中具有代表性的理论技术和开源软件。

语音合成的研究始于1939年贝尔实验室研制的第一台采用共振峰原理的电子合成器。1980年提出串/并联混合型共振峰合成器。20世纪80年代末,基音同步叠加时域波形修改算法的提出更好地解决了语音段拼接问题。20世纪90年代末,基于大语料库的语音基元选取算法和波形拼接算法的提出可以合成更高质量的语音,基于隐马尔可夫模型的统计参数语音合成技术取得不错的效果。现在深度学习算法已经广泛应用到语音合成技术当中。图2总结了语音合成发展过程中具有代表性的理论技术和开源软件。

语音识别的典型任务主要包括稳健语音识别和说话人自适应技术等。稳健语音识别是当输入语音质量不高或语音特性变化时,在复杂、多变的声学环境下以较高精度识别语音的技术。说话人自适应技术可以通过解析不同说话人之间的差异问题来识别非特定人的语音。

语音合成的典型任务主要包括具有丰富表现力的语音合成和多种语言语音合成技术。具有丰富表现力的语音合成技术可以提高语音合成的表现力,而不仅仅以固定朗读的方式将语音输出。多种语言语音合成技术可以理解不同的语言,针对收听者的不同国籍等特征,将语音合成推广到多语种语音合成平台。

智能语音的典型应用主要有智能语音交互、语音控制和生物特征信息验证等。智能语音交互是基于语音输入的应用,说话人通过语音即可收到反馈结果。智能语音交互在语音助手、智能导航、智能家居等方面有着广泛的应用。语音控制技术可以识别、理解语音信号,将人类的语言命令转化为相应命令。生物特征信息验证通过与语音识别技术相结合,可以利用人类声音固有的生理特性和行为特征来对个人身份进行鉴定。表1列举了智能语音领域的一些典型应用。

02.典型开源软件

智能语音作为人工智能领域中的重要研究方向,有大量开源软件和开源数据集,为该领域研究人员提供了良好的科研基础,促进了智能语音研究的快速发展。本小节对部分典型开源软件予以介绍。

语音识别

ISIP是开源语音识别工具包,是美国密西西比州立大学在1996年开发的开源软件,包括后端、解码器和训练三个模块。

Julius是高性能、大词汇量的语音识别开源工具包,是日本名古屋工业大学在1997年开发的基于APGL-3.0协议的开源软件。Julius基于Linux、Unix,以及 Windows平台,主要应用于语音识别领域。

HTK是隐马尔可夫工具包,是剑桥工学院机器智能实验室开发的基于MIT协议的开源软件。HTK通过训练隐马尔可夫模型,主要应用于语音识别、语音合成以及DNA序列等领域。

CMU sphinx是开源语音识别工具包,是CMU Sphinx组在2000年开发的基于GPL-2.0协议的开源软件。

Kaldi是使用C++语言编写的语音识别工具,是约翰霍普金斯大学在2009年开发的基于Apache协议的开源软件,重点应用于子空间高斯混合模型(SGMM)建模。

语音合成

MARY是用Java语言开发的多语言语音合成平台,是德国人工智能研究中心在2014年开发的基于MIT协议的开源软件,支持德语、英语、俄罗斯语和土耳其语等语音合成。

Festival是通用的、用于构建语音合成系统的开源框架,是英国爱丁堡大学语音技术研究中心在2004年开发的基于BSD协议的开源框架,除了支持多种语言的语音合成外,还可以支持Apple原生操作系统。

eSpeak是开源的语音合成工具包,是Jonathan Duddington在1995年发布的用于支持RISC系统的英语语音合成开源软件。eSpeak支持SSML(语音合成标记语言),具有处理文本的功能。

Filte是小型、快速运行的语音合成工具包,是卡耐基梅隆大学在2001年开发的基于GPL 3.0协议的开源软件,主要应用于小型嵌入式机器和大型服务器。

HTS是基于HMM模型的语音合成工具包,是日本名古屋工业大学在2002年开发的基于BSD协议的开源软件。HTS不仅可以提供自适应训练、参数生成等算法的实现,可以用来对语料库的语音数据进行训练,实现基于统计参数的语音合成。

Merlin是基于神经网络的语音合成开源工具包,是英国爱丁堡大学于2016年开发的基于Apache 2.0协议的开源软件,主要用于训练基于深度神经网络的统计参数语音合成模型。

开源数据集

一些学术机构开放了语音数据集,而大多数公司使用的语音数据集并未开放。典型的开放语音识别数据集包括经典的英语语音数据集TIMIT、2000 HUB5 English、含有近500个人的文本和语音的Libri Speech、侧重于不同口音的VoxForge、应用于不同噪声环境下的CHIME等。典型的开放语音合成数据集包括CMU语言技术研究所开源的CMU_ARCTIC等。

目前,我国从事智能语音相关研究领域的研究人员和企业呈现出快速增长的趋势。但是由于国内开源平台和社区起步较晚,缺乏类似国外成熟的开源社区和平台。随着我国智能语音技术的不断进步和发展,希望在不久的将来可以涌现出一批与智能语音相关的成熟的开源软件平台和社区,为国家智能语音领域的发展做出贡献。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181103A0YOFJ00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券