开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

GMM-HMM中的参数数量

GMM-HMM（Gaussian Mixture Model - Hidden Markov Model）是一种常用的统计模型，常用于语音识别、自然语言处理等领域。下面是关于GMM-HMM中的参数数量的完善且全面的答案：

GMM-HMM模型中的参数数量取决于模型的结构和设置。一般来说，GMM-HMM模型包含以下几个部分的参数：

高斯混合模型（GMM）参数：GMM用于对观测数据进行建模，通常由多个高斯分布组成。每个高斯分布都有均值向量和协方差矩阵作为参数。如果GMM中有K个高斯分布，那么GMM参数的数量就是2K（每个高斯分布的均值向量和协方差矩阵）。
隐马尔可夫模型（HMM）参数：HMM用于对状态序列进行建模。HMM包含状态转移矩阵、初始状态概率向量和发射概率矩阵。假设HMM有N个隐藏状态，那么状态转移矩阵的参数数量为N^2，初始状态概率向量的参数数量为N，发射概率矩阵的参数数量为N*M（M为观测数据的维度）。

综上所述，GMM-HMM模型中的参数数量为2K + N^2 + N + N*M。

GMM-HMM模型的优势在于能够对复杂的观测数据进行建模，并且能够处理时序数据。它在语音识别、手写识别、人脸识别等领域有广泛的应用。

腾讯云相关产品中，与GMM-HMM模型相关的产品包括语音识别（ASR）和自然语言处理（NLP）服务。腾讯云语音识别服务（ASR）提供了基于GMM-HMM模型的语音识别能力，可以将语音转换为文本。腾讯云自然语言处理服务（NLP）提供了基于GMM-HMM模型的语音合成、语音识别、语音唤醒等功能。

更多关于腾讯云语音识别服务（ASR）的信息，请访问：腾讯云语音识别

更多关于腾讯云自然语言处理服务（NLP）的信息，请访问：腾讯云自然语言处理

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

从GMM-HMM到DNN-HMM

首先，如下图所示是一个常见的语音识别框架图，语音识别系统的模型通常由声学模型和语言模型两部分组成，分别对应于语音到音节概率的计算和音节到字概率的计算。这里我们要探讨的GMM-HMM模型属于其中的声学模型。

03

GMM-HMM模型 vs. DNN-HMM模型 vs. DNN-CTC模型 | 语言模型之战 | 老炮儿聊机器语音 | 4th

随着语音识别技术越来越热，声学模型的训练方法也越来越多，各种组合和变化也是层出不穷，而随着深度学习的兴起，使用了接近30年的语音识别声学模型HMM（隐马尔科夫模型）逐渐被DNN（深度神经网络）所替代，模型精度也有了突飞猛进的变化，其中声学模型模型结构经历了从经典的GMM-HMM，到DNN-HMM，再到DNN+CTC的转变，本文列出了其中的常见模型，权当是一篇导读性质的文章，供大家学习时参考。

05

机器学习23：概率图--隐马尔可夫模型(HMM)

隐马尔可夫模型（HMM）是可用于标注问题的统计学习模型，描述由隐藏的马尔可夫链随机生成观测序列的过程，属于生成模型。

02

机器语音识别技术发展脉络概览 | 文末有彩蛋

通常我们说到语音识别技术的时候，指的是整个语音对话系统，如图所示，语音对话系统通常包括四个主要组成部分的一个或多个：语音识别系统将语音转化为文本、语义理解系统提取用户说话的语义信息、文字转语音系统将内容转化为语音、对话管理系统连接其他三个系统并完成与实际应用场景的沟通。所有这些部分对建立一个成功的语音对话系统都是很关键的。

02

深度学习各方面应用

导语：在本章中，我们将介绍如何使用深度学习来解决计算机视觉、语音识别、自然语言处理以及其他商业领域中的应用。首先我们将讨论在许多最重要的AI 应用中所需的大规模神经网络的实现。接着，我们将回顾深度学习

06

深度学习已成功应用于这三大领域

编者按：本文选自图书《Deep Learning》中文版第十二章部分内容，《深度学习》由全球知名的三位专家Ian Goodfellow、Yoshua Bengio和Aaron Courville撰写，是深度学习领域奠基性的经典教材。在本章中，我们将介绍如何使用深度学习来解决计算机视觉、语音识别、自然语言处理以及其他商业领域中的应用。首先我们将讨论在许多最重要的AI 应用中所需的大规模神经网络的实现。接着，我们将回顾深度学习已经成功应用的几个特定领域。尽管深度学习的一个目标是设计能够处理各种任务的算法，

04

深度学习已成功应用于这三大领域

编者按：本文选自图书《Deep Learning》中文版第十二章部分内容，《深度学习》由全球知名的三位专家Ian Goodfellow、Yoshua Bengio和Aaron Courville撰写，是深度学习领域奠基性的经典教材。在本章中，我们将介绍如何使用深度学习来解决计算机视觉、语音识别、自然语言处理以及其他商业领域中的应用。首先我们将讨论在许多最重要的AI 应用中所需的大规模神经网络的实现。接着，我们将回顾深度学习已经成功应用的几个特定领域。尽管深度学习的一个目标是设计能够处理各种任务的算法，然

02

深度学习已成功应用于这三大领域

本文中，我们将介绍如何使用深度学习来解决计算机视觉、语音识别、自然语言处理以及其他商业领域中的应用。首先我们将讨论在许多最重要的AI 应用中所需的大规模神经网络的实现。接着，我们将回顾深度学习已经成功应用的几个特定领域。尽管深度学习的一个目标是设计能够处理各种任务的算法，然而截至目前深度学习的应用仍然需要一定程度的特化。例如，计算机视觉中的任务对每一个样本都需要处理大量的输入特征(像素)，自然语言处理任务的每一个输入特征都需要对大量的可能值(词汇表中的词) 建模。大规模深度学习深度学习的基本思想基于

09

ZLG深度解析——语音识别技术

语言作为人类的一种基本交流方式，在数千年历史中得到持续传承。近年来，语音识别技术的不断成熟，已广泛应用于我们的生活当中。语音识别技术是如何让机器“听懂”人类语言？本文将为大家从语音前端处理、基于统计学语音识别和基于深度学习语音识别等方面阐述语音识别的原理。

02

前端语音信号处理

语音活动检测（Voice Activity Detection， VAD）用于检测出语音信号的起始位置，分离出语音段和非语音（静音或噪声）段。VAD算法大致分为三类：基于阈值的VAD、基于分类器的VAD和基于模型的VAD。

03

【AIDL专栏】陶建华：深度神经网络与语音（附PPT）

“人工智能前沿讲习班”（AIDL）由中国人工智能学会主办，旨在短时间内集中学习某一领域的基础理论、最新进展和落地方向，并促进产、学、研相关从业人员的相互交流。对于硕士、博士、青年教师、企事业单位相关从业者、预期转行AI领域的爱好者均具有重要的意义。2018年AIDL活动正在筹备，敬请关注公众号获取最新消息。

03

独家 | 一文读懂语音识别（附学习资源）

一、前言 6月27日，美国权威科技杂志《MIT科技评论》公布2017全球最聪明50家公司榜单。科大讯飞名列中国第一、全球第六。全世界排在科大讯飞前面企业分别是：英伟达、Spacex、亚马逊、23andme、Alphabet。《MIT科技评论》认为，“科大讯飞旗下的语音助手是中国版的Siri，其可携带实时翻译器则是一款杰出的人工智能应用，克服了方言、俚语和背景杂音，可将汉语精准地翻译成十几种语言。科大讯飞在中国语音技术市场的占有率70%。”越来越多的人认为，语音识别将成为下一代交互革命的关键技术。与此

06

[语音识别] HMM理论理解+实战

（1）04 隐马尔可夫模型 (HMM) ：https://blog.csdn.net/u014365862/article/details/105007027 （2）一个隐马尔科夫模型的应用实例：中文分词： https://blog.csdn.net/u014365862/article/details/54891582

02

NNLM、RNNLM、LSTM-RNNLM、Bi-lstm、GPT-1…你都掌握了吗？一文总结语音识别必备经典模型（一）

机器之心专栏本专栏由机器之心SOTA！模型资源站出品，每周日于机器之心公众号持续更新。本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务，并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA！模型资源站（sota.jiqizhixin.com）即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。本文将分 3 期进行连载，共介绍 17 个在语音识别任务上曾取得 SOTA 的经典模型。第 1 期：NNLM、RNNLM、LSTM-RNNLM、Bi-lstm、Bi-RN

02

[深度学习概念]·主流声学模型对比

语音识别建模对语音识别来说是不可或缺的一部分，因为不同的建模技术通常意味着不同的识别性能，所以这是各个语音识别团队重点优化的方向。也正是因为如此，语音识别的模型也层出不穷，其中语言模型包括了N-gram、RNNLM等，在声学模型里面又涵盖了HMM、DNN、RNN等模型...

02

《语音识别》经典原创重磅升级，增补超20%

👆点击“博文视点Broadview”，获取更多书讯大家好，我是《语音识别：原理与应用》的作者洪青阳！今天介绍一下我们这本教材，这本书是第2版。我们出这本书其实是希望帮助读者能够更好地理解语音识别技术。我们在编写第1版的时候，也考虑到语音识别它的一些基本能力和实践内容。这本书的设计原则就是力求深入浅出，图文并茂，能够让大家更好地掌握语音识别的基本原理。书中涉及了一些算法的细节，还有包括它的一些实践的过程。本书共有15章，其中包含基本的GMM基本原理，包括 GMM-HMM（高斯混合模型），

03

Attention-lvcsr、Residual LSTM…你都掌握了吗？一文总结语音识别必备经典模型（三）

机器之心专栏本专栏由机器之心SOTA！模型资源站出品，每周日于机器之心公众号持续更新。本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务，并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA！模型资源站（sota.jiqizhixin.com）即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。本文将分 3 期进行连载，共介绍 17 个在语音识别任务上曾取得 SOTA 的经典模型。第 1 期：NNLM、RNNLM、LSTM-RNNLM、Bi-lstm、Bi-RN

03

华为ICT——第八章：语音处理理论与实践01

⚫ U-Net是2015年菲兹保大学的Olaf Ronneberger等人提出的生物图像分割的深度学习模型。

01

高效灵活的概率建模方法基于Python

前言在今天给大家介绍一个研究工具：pomegranate。它比其他软件包更加灵活，更快，直观易用，并且可以在多线程中并行完成。 The API 主要模型介绍一般混合模型隐马尔可夫模型贝叶斯网络贝叶斯分类器所有模型使用做多的方法 model.log_probability(X) / model.probability(X) model.sample() model.fit(X, weights, inertia) model.summarize(X, weights) model.fr

05

人人都能看懂的AIoT开发

自2017年开始，“AIoT”一词便开始频频刷屏，成为物联网的行业热词。“AIoT”即“AI+IoT”，指的是人工智能技术与物联网在实际应用中的落地融合。当前，已经有越来越多的人将AI与IoT结合到一起来看，AIoT作为各大传统行业智能化升级的最佳通道，已经成为物联网发展的必然趋势。本场chat我们一起学习什么是AIoT，如何入门AIoT开发，在人工智能物联网时代来临之前做好知识储备。

05

[语音识别] 05 基于GMM-HMM的语音识别系统（单音素、三音素）

基于GMM-HMM的语音识别系统开源的语音识别工具包 http://kaldi-asr.org/ 作者: http://www.danielpovey.com/ 为什么用Kaldi?

00

一文详解 DNN 在声学应用中的模型训练

本文通过简单kaldi源码，分析DNN训练声学模型时神经网络的输入与输出。在进行DNN训练之前需要用到之前GMM-HMM训练的模型，以训练好的mono模型为例，对模型进行维特比alignement（对齐），该部分主要完成了每个语音文件的帧到 transition-id 的映射。不妨查看对齐后的结果： $ copy-int-vector "ark:gunzip -c ali.1.gz|" ark,t:- | head -n 1 speaker001_00003 4 1 1 1 1 1 1 1 1 1 1 1

06

Interspeech2020腾讯天籁论文系列解读

导读 | 本篇文章将解读腾讯多媒体实验室“腾讯天籁”团队在Interspeech2020上同佐治亚理工学院和中国科学技术大学等单位联合发表的3篇论文。Interspeech是语音技术领域的国际顶级会议，今年于10月25至29日在线上举行，根据主办方发布的数据，Interspeech2020共接收到有效论文投稿 2140 篇，其中 1022 篇被接收。 ▌01 在本篇论文中，探索了语音增强领域的深度张量-向量回归模型（deep tensor-to-vector regression mode

03

EeSen、FSMN、CLDNN、BERT、Transformer-XL…你都掌握了吗？一文总结语音识别必备经典模型（二）

机器之心专栏本专栏由机器之心SOTA！模型资源站出品，每周日于机器之心公众号持续更新。本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务，并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA！模型资源站（sota.jiqizhixin.com）即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。本文将分 3 期进行连载，共介绍 17 个在语音识别任务上曾取得 SOTA 的经典模型。第 1 期：NNLM、RNNLM、LSTM-RNNLM、Bi-lstm、Bi-RN

01

《语音信号处理》整理[通俗易懂]

说话的声音（声带震动）和其他声音相比，有独特的时域和频域模式。声带的震动产生基频(fundamental frequency)，口腔共振(the pharyngeal and oral resonance cavities)等产生高频谐波

00

语音识别技术发展迅速，这本书是你需要的全方位解读语音识别的最新著作！

随着物联网技术和智能设备技术的快速发展，人与机器的交互，不再仅依赖于鼠标和键盘，更有可能的是直接采用语音。

02

[语音识别] 单音素、三音素、决策树

以前的音标现在也可以叫音素，而且现在正广泛的把音标叫音素。每一种语言中的音素都是不一样的，即使是同种语言中，方言的音素也是不一样的。音素应该与人体的发音严格的区分开，因为音素是指一个有规律的有限的发音系统而人体的发音则是无限的。以英语为例，英语共有48个音素，其中元音20个，辅音28个。英语辅音和元音在语言中的作用，就相当于汉语中的声母和韵母。记录语音音素的符号叫做音标。音标可以分为两种，即严式音标和宽式音标。一般学习语言使用宽式音标即可，比如广泛运用的英语国际音标。而对于语音、音韵等专业研究来说，用严式音标则最大可能地记录任意一种语言的语音。音素是构成音节的最小单位或最小的语音片段，是从音质的角度划分出来的最小的线性的语音单位。在语音学与音韵学中，音素一词所指的是说话时所发出的声音。音素是具体存在的物理现象。国际音标（这里指的是国际语音协会制定的国际音标，注意同英语国际音标区分）的音标符号与全人类语言的音素具有一一对应。

01

从不温不火到炙手可热：语音识别技术简史

【导读】语音识别自半个世纪前诞生以来，一直处于不温不火的状态，直到 2009 年深度学习技术的长足发展才使得语音识别的精度大大提高，虽然还无法进行无限制领域、无限制人群的应用，但也在大多数场景中提供了一种便利高效的沟通方式。本篇文章将从技术和产业两个角度来回顾一下语音识别发展的历程和现状，并分析一些未来趋势，希望能帮助更多年轻技术人员了解语音行业，并能产生兴趣投身于这个行业。

03

Human Language Processing——HMM

这篇文章主要介绍目前一些语音识别技术与HMM有什么关系，然后你就会发现，很多技术其实有借用HMM的思想

01

语音识别现状与工程师必备技能

作者 | 陈孝良责编 | 胡永波目前来看，语音识别的精度和速度比较取决于实际应用环境，在安静环境、标准口音、常见词汇上的语音识别率已经超过95%，完全达到了可用状态，这也是当前语音识别比较火热的原因。随着技术的发展，现在口音、方言、噪声等场景下的语音识别也达到了可用状态，但是对于强噪声、超远场、强干扰、多语种、大词汇等场景下的语音识别还需要很大的提升。当然，多人语音识别和离线语音识别也是当前需要重点解决的问题。学术界探讨了很多语音识别的技术趋势，有两个思路是非常值得关注的，一个是就是端到端的语音识别

01

AI公开课丨语音识别初探——基础理论与关键技术

随着物联网技术和智能设备技术的快速发展，人与机器的交互，不再仅依赖于鼠标和键盘，更有可能的是直接采用语音。这其中的关键技术就是自动语音识别（Automatic Speech Recognition，ASR）。其所要完成的工作，简单地说，就是在与机器进行语音交流时，能够让机器听懂你在说什么。但语音识别技术的发展日新月异，新的理论和方案不断出现，读者除了掌握基本原理，也亟须了解语音识别最新的前沿技术，例如加权有限状态转换器（WFST）、端到端（E2E）语音识别等。本次博文视点学院公开课，我们特邀厦门大

01

CNN 在语音识别中的应用

本文介绍了语音识别技术中的端到端模型、基于CTC的序列模型、基于序列学习的注意力机制模型、基于3D卷积神经网络的语音识别系统等。其中，端到端模型可以直接从原始音频数据中学习到针对语音识别的抽象表示，具有较好的可扩展性和鲁棒性；而基于CTC的序列模型则通过连接主义学习的方法，将CTC定义的序列映射问题转化为神经网络中的参数优化问题，进一步提高了语音识别的准确率；基于序列学习的注意力机制模型则借鉴了语言学中的注意力机制，通过对输入序列进行加权处理，进一步提高了模型的识别准确率；基于3D卷积神经网络的语音识别系统则利用3D卷积核对输入序列进行卷积处理，提取出序列中的特征信息，进一步提高了模型的识别准确率。

03

[机器学习篇]机器学习知识总结篇

4、Python基础1 - Python及其数学库解释器Python2.7与IDE：Anaconda/Pycharm Python基础：列表/元组/字典/类/文件 Taylor展式的代码实现 numpy/scipy/matplotlib/panda的介绍和典型使用多元高斯分布泊松分布、幂律分布典型图像处理

01

智能语音相关介绍

语音是指人类通过发音系统，包括肺部、气管、喉部声门和声带、咽腔、口腔、鼻腔等，发出的在空气中传播的、具有一定意义的声音，是语言的声音形式，是人人交流中最主要的信息载体。另外，通过让机器能听会说，语音也成为人机交互的重要入口。

01

语音识别技术的发展与未来趋势：深度学习、端到端建模与多模态融合

语音识别（Speech Recognition）技术是指将口述或语音信号转化为文本或命令的自动化过程。随着深度学习技术的快速发展，语音识别取得了长足的进步，成为人机交互、智能助理和语音控制等领域的核心技术之一。本文将详细介绍语音识别技术的发展历程，重点介绍了深度学习、端到端建模以及多模态融合等技术在语音识别领域的应用，并展望了未来的发展趋势。

05

学界 | 词错率2.97%：云从科技刷新语音识别世界纪录

云从表示，这已是云从在近半年以来第二次宣布刷新世界纪录。今年 4 月，云从科技跨镜追踪技术（ReID）技术在 Market-1501，DukeMTMC-reID，CUHK03 三个数据集刷新了世界纪录，其中最高在 Market-1501 上的首位命中率（Rank-1 Accuracy）达到 96.6%，让跨镜追踪技术（ReID）技术在准确率上首次达到商用水平。

02

专栏 | 极限元CTO温正棋谈语音质检方案：从关键词检索到情感识别

机器之心专栏作者：温正棋极限元智能科技本文作者温正棋为极限元智能科技 CTO 、中国科学院自动化研究所副研究员，毕业于中国科学院自动化研究所，先后在日本和歌山大学和美国佐治亚理工学院进行交流学习，在国际会议和期刊上发表论文十余篇，获得多项关于语音及音频领域的专利。其「具有个性化自适应能力的高性能语音处理技术及应用」获得北京科学技术奖。在语音的合成、识别、说话人识别等领域都有着多年深入研究经验，并结合深度学习技术开发了多款语音应用产品。为了提高客户满意度、完善客户服务，同时对客服人员工作的考评，很多企

PRML读书笔记(4) - 高斯混合模型（GMM）及 EM 算法

高斯混合模型的概念在 PRML 这本书的第 9 章介绍的。目前正在上的김동국 教授的人工神经网络纯理论课程非常适合研究生入门机器学习。但是由于没时间讲解全部内容，教授说正式的内容在第 5 章结束。后面几节课全部讲学生感兴趣的内容 - GMM，HMM 等。教授说没有讲解的内容不是不重要，而是在踏入机器学习这个研究领域，这些都是很重要且必备的知识。

03

Nat. Com. Sci.｜使用RaptGen发现生成核酸适配体

本文介绍由日本早稻田大学、计算生物大数据开放创新实验室、日本医学院的Michiaki Hamada教授团队发表在Nature Computational Science的研究成果。作者开发了一种变分自编码器模型（RaptGen）用于生成核酸适配体。RaptGen利用一个轮廓隐藏的马尔可夫（HMM）模型解码器来有效地表示motif序列。作者证明了RaptGen在motif信息的基础上将模拟序列数据嵌入到低维潜在空间中，并使用两个独立的SELEX数据集进行了序列嵌入。RaptGen成功地从潜在空间生成了适配体，模型还可以通过一个较短的学习模型生成一个截断的适配体。并且证明了RaptGen可以根据贝叶斯优化应用于活性引导的适配体生成。

02

深度探索：使用Python与TensorFlow打造端到端语音识别系统

随着自然语言处理技术的飞速发展，语音识别作为一种重要的交互方式日益普及。本文将以使用Python与TensorFlow框架构建端到端语音识别系统为核心，深入探讨关键技术、实现步骤以及代码示例，帮助读者理解并实践语音识别系统的开发。

01

干货 | 对端到端语音识别网络的两种全新探索

AI 科技评论按：语音识别技术历史悠久，早在上世纪 50 年代，贝尔研究所就研究出了可以识别十个英文数字的简单系统。从上世纪 70 年代起，传统的基于统计的 HMM 声学模型，N 元组语言模型的发明，已经使得语音识别技术可以在小规模词汇量上使用。在新世纪伊始，GMM-HMM 模型的序列鉴别性训练方法的提出又进一步提升了语音识别的准确率。最近 5-10 年间，随着深度学习的快速发展，算力的快速增长，数据量的急速扩张，深度学习开始大规模应用于语音识别领域并取得突破性进展，深度模型已经可以在干净标准的独白类音频上达到 5% 以下的错词率。此外，端到端的模型可以轻松的将各种语言揉合在一个模型中，不需要做额外的音素词典的准备，这将大大推动业界技术研究与应用落地的进度。

04

博客 | 论文解读：对端到端语音识别网络的两种全新探索

雷锋网 AI 科技评论按：语音识别技术历史悠久，早在上世纪 50 年代，贝尔研究所就研究出了可以识别十个英文数字的简单系统。从上世纪 70 年代起，传统的基于统计的 HMM 声学模型，N 元组语言模型的发明，已经使得语音识别技术可以在小规模词汇量上使用。在新世纪伊始，GMM-HMM 模型的序列鉴别性训练方法的提出又进一步提升了语音识别的准确率。最近 5-10 年间，随着深度学习的快速发展，算力的快速增长，数据量的急速扩张，深度学习开始大规模应用于语音识别领域并取得突破性进展，深度模型已经可以在干净标准的独白类音频上达到 5% 以下的错词率。此外，端到端的模型可以轻松的将各种语言揉合在一个模型中，不需要做额外的音素词典的准备，这将大大推动业界技术研究与应用落地的进度。

03

初探智能客服机器人的三大核心AI算法模型及评估指标 | 算法经验（14）

智能客服机器人用于解决重复性客服问题，降低客服人员工作量和劳动强度，并且能够通过与客户的交互式多轮对话自动积累客服知识。

04

智能音箱大战全面开火，那么问题来了：如何成为一名全栈语音识别工程师？

文 / 陈孝良 11月16号，百度发布了渡鸦智能音箱和DuerOS开发板SoundPi，至此，国内再一名巨头加入智能音箱大战。迄今为止，国内战场上的巨头有阿里、京东、腾讯、百度、小米、科大讯飞等，国外则有苹果、微软、亚马逊、谷歌、脸书、三星等，这些巨头占据了全球市值的排名榜，同时发力争夺未来人工智能时代的语音入口，甚至亚马逊和阿里率先不惜代价开启了补贴大战。这些全球巨头的激烈竞争，将对未来十年产生极其重要的影响，同时，这更是新一波的职业快速发展机会。语音智能当前的核心关键是声学问题和语义理解，随着市

干货：NIST评测（SRE19）获胜团队声纹识别技术分析 | CSDN博文精选

近日，NIST说话人识别技术评测 (Speaker Recognition Evaluation，SRE）正式公布榜单，芯片初创公司清微智能和清华大学等机构组成的联队，在Conversational Telephone Speech (CTS)和Multimedia两个任务上均取得全球前十，亚洲地区第一的好成绩。

02

想做语音识别的你，真的了解语音吗？

本文节选自《语音识别基本法：Kaldi实践与探索》一书！ ---- --正文-- 从起初的一声巨响，到梵音天籁，到耳旁的窃窃私语，到妈妈喊我回家吃饭，总离不开声音。声音是这个世界存在并运动着的证据。假设我们已经知道了声音是什么。我们可以找到很多描述声音的词语，如“抑扬顿挫”“余音绕梁”。当我们在脑海中搜索这类词语时，描述对象总绕不过这两个：人的声音和物的声音。人的声音，就是语音；物的声音，多数是指音乐。这样的选择源于人的先验预期：语音和音乐最可能有意义，有意义的事情人们才会关注。估计不会有人乐

03

7月书讯丨新书速览，入股不亏

七月新书到，龙吟伴虎啸用一波新书更新下你的读书清单吧 1 《集成学习：基础与算法》 2 《Visual Studio Code 权威指南》 3 《JavaScript语言精髓与编程实践（第3版）》 4 《语音识别：原理与应用（全彩）》 5 《大数据平台架构与原型实现：数据中台建设实战》 6 《Go语言编程之旅：一起用Go做项目》 7 《Android Jetpack应用指南》 8 《高效自动化测试平台：设计与开发实战》 9 《Python预测之美：数据分析与算法实战（双色）》 10

02

RNN与LSTM

RNN（Recurrent Neural Network）是一类用于处理序列数据的神经网络。

04

《语音信号处理》语音识别章节读书笔记

两本书，《语音信号处理》赵力编和《语音信号处理》韩纪庆编。强烈推荐韩纪庆版本，知识点很全面，可以作为语音识别的入门中文书籍，章节很也短，很快就入门了。

01

苹果连发三篇机器学习新研究：全是讲如何让Siri更厉害

安妮编译整理量子位出品 | 公众号 QbitAI Siri的本领升级了。苹果上月推出的机器学习博客今天连更3篇新文，全部是有关Siri的研究技术。三篇讲了啥？在这篇题为《Deep Lear

04

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭