智能语音技术解密_语音识别

智能语音技术解密

手机看

课程福利

腾讯内部独家智能语音技术资料包

腾讯产业互联网学堂热门学习路径，0基础上手

1
关注“腾讯产业互联网学堂”公众号加群互动有好礼相送
2
向学习君回复口令 “2”
3
获得课程福利包

“腾讯产业互联网学堂”微信公众号

讲师简介

罗冬日

腾讯云高级研究员

现任腾讯云大数据和AI高级研究员，负责智能语音相关的产品研究和开发。《Tensorflow入门与实战》一书作者。

简介

智能语音服务（Artificial Audio Intelligence）满足语音识别、语音合成、声纹识别等语音处理需求。智能语音服务拥有强大的垂直领域定制化服务，打造专业高效的语音大脑，为企业提供全方位的智能语音解决方案，其主要目标是以计算机自动将人类的语音内容转换为相应的文字。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。本次课程，我们将邀请到腾讯云高级研究员罗冬日，讲解腾讯云的智能语音技术揭秘。

课程讲义

语音识别（speech recognition）技术，也被称为自动语音识别（英语：Automatic Speech Recognition, ASR）、计算机语音识别（英语：Computer Speech Recognition）或是语音转文本识别（英语：Speech To Text, STT），其目标是以计算机自动将人类的语音内容转换为相应的文字。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

语音识别

语音识别（Automatic Speech Recognition，ASR）为开发者提供语音转文字服务的最佳体验。语音识别服务经微信、腾讯视频、王者荣耀等大量内部业务验证，同时也在线上线下大量外部客户业务场景下成功落地，具备识别准确率高、接入便捷、性能稳定等特点。腾讯云语音识别服务开放实时语音识别、一句话识别和录音文件识别三种服务形式，满足不同类型开发者需求。

语音合成

语音合成（Text To Speech，TTS）满足将文本转化成拟人化语音的需求，打通人机交互闭环。支持多种音色选择，可自定义音量和语速，为企业客户提供个性化发音人定制服务，让发音更自然、更专业、更符合场景需求。语音合成可广泛应用于语音导航、有声读物、机器人、语音助手、自动新闻播报等场景，提升人机交互体验，提高语音类应用构建效率。

语音识别就是把语音变成文字的过程，相信大家在平时生活也已经用到过一些语音识别的场景，比如说语音输入法、地图产品的语音输入。近年来，随着互联网的发展，各种音频数据和文本数据得到不断积累和丰富，CPU、GPU硬件的发展，以及深度学习算法大规模的应用，语音识别技术的应用开始获得大规模的商业化拓展。

此次我们整理了腾讯产业互联网学堂大咖直播课《智能语音技术解密》的回顾，帮助大家了解智能语音，以及智能语音背后的一些技术。

一、智能语音识别的过程：

机器识别语音到文字的过程和人识别语音的过程类似：从录音文件或是麦克风收集的音频中提取特征，经过声学模型和语言模型的处理，最后得出的是识别结果的文字。提取特征的方式有很多种，比较常见的是MFC（多频互控）。

在这个过程中，我们将重点关注特征提取、声学模型、语言模型这三个流程。

特征提取方面：

我们在拿到一段音频文件后，会先把这个文件进行转码变成PCM格式，然后把这个文件分成一片一片，也就是分帧，再对每一帧的数据进行采样。

声学模型方面：

提取了特征之后，就要进行声学模型的处理。这个过程就是把之前提取到的发音特征数据变成音素概率。

语言模型方面：

语言模型的处理需要大量的文本语料，通过这些文本语料统计出我们平时看到的词语和句子出现的概率。语音模型中用的比较多的技术是WFST，通过搜过WFST的图，可以得到对应这个音素发音的概率最高的句子，最终形成语音识别结果的文本。

二、深度神经网络

说到智能语音识别，就不得不提智能语音识别领域中最重要深度神经网络技术。从名称上理解的话，深度神经网络其实是模拟人的大脑神经元的工作原理得出的。1943年，心理学家Warren McCulloch和数学家Walter Pits发明了数学上神经元的原型。

基于简单的神经元的单元，可以组合出更复杂的神经网络的结构，后面这两张图分别是简单的神经网络和多层的神经网络的示例，对比可以看出，多层神经网络的神经更复杂、层数和节点更多、计算量更大。

神经网络训练的方式主要有两种：损失函数和优化函数。损失函数指评价网络输出结果和标准结果相差多少；优化函数的作用是优化网络里的参数。

深度神经网络在刚被提出时并没有受到太多的重视，因为它的计算量很大、效果也不比当时其他的算法好。直到卷积神经网络的出现并高效应用于图像识别领域时，深度神经网络技术才受到大家的重视。第一个采用卷积思想的神经网络在1988年面世；2012年，Hinton的学生Alex Krizhevsky在寝室死磕出来一个使用GPU来加速计算的卷积神经网络模型，从此深度神经网络技术开始大放异彩。