首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python实用编程,实现语音识别和语音合成!

声音的本质是震动,震动的本质是位移关于时间的函数,波形文件(.wav)中记录了不同采样时刻的位移。

通过傅里叶变换,可以将时间域的声音函数分解为一系列不同频率的正弦函数的叠加,通过频率谱线的特殊分布,建立音频内容和文本的对应关系,以此作为模型训练的基础。

语音识别

梅尔频率倒谱系数(MFCC)通过与声音内容密切相关的13个特殊频率所对应的能量分布,可以使用梅尔频率倒谱系数矩阵作为语音识别的特征。基于隐马尔科夫模型进行模式识别,找到测试样本最匹配的声音模型,从而识别语音内容。

MFCC

梅尔频率倒谱系数相关API:

案例:画出MFCC矩阵:

隐马尔科夫模型

隐马尔科夫模型相关API:

案例:训练 training文件夹 下的音频,对testing文件夹下的音频文件做分类

1、读取training文件夹中的训练音频样本,每个音频对应一个mfcc矩阵,每个mfcc都有一个类别(apple)。

2、把所有类别为apple的mfcc合并在一起,形成训练集。

| mfcc | |

| mfcc | apple |

| mfcc | |

.....

由上述训练集样本可以训练一个用于匹配apple的HMM。

3、训练7个HMM分别对应每个水果类别。 保存在列表中。

4、读取testing文件夹中的测试样本,整理测试样本

| mfcc | apple |

| mfcc | lime |

5、针对每一个测试样本:

1、分别使用7个HMM模型,对测试样本计算score得分。

2、取7个模型中得分最高的模型所属类别作为预测类别。

声音合成

根据需求获取某个声音的模型频域数据,根据业务需要可以修改模型数据,逆向生成时域数据,完成声音的合成。

案例:

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190921A0DSSY00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券