首页
学习
活动
专区
工具
TVP
发布

长语音解救指南

你的老板是不是

也整天喜欢给你发47''、59''的语音叫你加班 ?

那么这个技术究竟是如何实现的呢?

这是基于一个叫——语音识别的技术。(就像我们平时经常使用的语音搜索,语音输入甚至是和siri的对话语音转换技术都是基于语音识别技术的呢~)

01

什么是语音识别?

像之前说的,让机器人拥有视觉的概念,语音识别是让机器明白人类在说什么的基础(让机器人明白人类说什么那可是无数研究人员梦寐以求夜以继日前赴后继想要达到的成就)。因为对于机器来说,它并不能直接理解人类所说的话。他需要将语音转换为文本才可以进行下一步的处理和分析。这就是语音识别技术所需要解决的关键问题:如何实现语音和文本信息之间的转换?

02

语音识别的技术原理(简单粗暴的理解向)

我们知道声音其实是一种波,比如下面这张图,就是老板叫你加班的语音在音频剪辑软件里的样子。

在开始语音识别之前,一般会用信号处理技术把录入的这段音频前后静音的部分切掉,(就是上面这张图红色框框框住的地方)。然后再对声音进行分析。

记得我们之前在图像识别技术里说过的吗?计算机在处理图像的时候,会把图像切割成一小块一小块的再进行分析。在语音识别这方面也是一样的道理,计算机会把音频切成一小段一小段的进行分析。用术语来说就是“分帧”。而且和图像识别的切割图片一样,切割音频也是用移动窗函数来完成的,所以每一段切出来的小片段都会有一部分和前面那个小片段有重合。

(比如说这张图里每两个小片段之间会有25-10=15帧的重叠)

我们把boss的59''语音分成很多很多个小片段之后,计算机会根据声学的某个特征,比如MFCC,将波形转换成多维向量。你可以简单的理解为这个多维向量里就包含了这一小片段语音的内容信息。到了这一步,老板的那段59''就转换成了一个M行、N列的矩阵。我们叫它——(暗中)观察序列。这个序列大概的样子就像下面这张图一样:

接下来就是怎样把这个正常人看不懂的东西变成文本了。

概念说明

1.音素:单词的发音由音素构成。汉语一般直接用全部声母和韵母作为音素集,另外汉语识别还分有调无调。

2.状态:比音素更小的语音单位~一般情况会把一个音素分为3个状态

总的来说,分三步走:

1 把帧识别成状态

2 把状态组合成音素

3 把音素组合成单词

就是从帧转换成很细致很细致的语音单位----状态,再从状态组合成音素,最后把音素组合成单词。也就是说只要知道了每帧语音对应的是哪一个状态,语音识别结果也就出来了。

那么我们怎么知道每帧语音对应的是什么状态?一开始,技术宅们想到的方法是看那一帧对应哪个状态的概率最大,那一帧就属于那个状态。比如像下面这张图,我们会猜这一帧属于状态S3。

但是这样子的话每个帧都会得到一个状态整个语音会得到一堆乱七八糟的的状态号。可实际上相邻帧的状态大多数都是相同的,因为每一帧都很短。于是又有人提出了一个模型叫HMM模型来解决这个问题。这个模型的思路就是:先构建一个状态网络,然后从这个状态网络里面找和那段声音最匹配的路径。因为事先构建了一个状态网络,所以有时候辨别结果会很局限。

比如说网络里只有“今天加班”和“周末加班”这两句话,那么不管老板说什么辨别出来的结果就只有这两句。所以想达到准确的识别结果就要搭建足够大的网络。语音识别的过程其实就是在这个网络里搜索最优解的过程。

说到这里,老板的那59''语音也转的差不多了

所以今天加班吗?

【彩蛋】上上篇(好吧我昨天忘了原谅我吗)说好的揭秘

为什么那张脸会笑?因为你是克隆人,他才是正主,他隔着玻璃是在观看你在模拟世界中的形态和反应。o(゚Д゚)っ!

子询AI-Lab

以最有趣的方式了解AI

(~ ̄▽ ̄)~

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180402G1ERA300?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券