前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >语音识别基础学习与录音笔实时转写测试

语音识别基础学习与录音笔实时转写测试

作者头像
用户5521279
发布于 2020-11-02 02:24:39
发布于 2020-11-02 02:24:39
2.9K0
举报
文章被收录于专栏:搜狗测试搜狗测试

一、引言

小编所在项目中,C1、C1Pro、C1Max录音笔,通过BLE和APP连接,音频文件实时传输到录音助手App端,具备实时录音转写的功能。工欲善其事必先利其器,小编补习了语音识别相关基础知识,对所测试应用的实时转写业务逻辑有了更深的认识。希望对语音测试的小伙伴们也有所帮助~~(●—●)

二、语音识别基础概念

1、语音识别(Automatic Speech Recognition,ASR)

语音识别,也被称自动语音识别,所要解决的问题是让机器能够“听懂”人类的语音,将语音中包含的文字信息“提取”出来,相当于给机器安装上“耳朵”,使其具备“能听”的功能。

语音识别是一门涉及面很广的交叉学科,它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。语音识别的目标是将人类的语音内容转换为相应的文字。

2、语音激活检测(voice active detection,VAD)

VAD也称为speech activity detection or speech detection, 是一项用于语音处理的技术,目的是检测语音信号是否存在。 VAD技术主要用于语音编码和语音识别。

通俗来讲,就是判断什么时候有语音什么时候没有语音(静音)。语音信号处理或是语音识别都是在VAD截取出来的有效语音片段上进行的。

3、语音唤醒(keyword spotting,简称 KWS ;或voice trigger,VT)

VT判断是唤醒(激活)词,那后续的语音就应该进行识别了;否则,不进行识别。语音唤醒的目的就是将设备从休眠状态激活至运行状态,所以唤醒词说出之后,能立刻被检测出来。

4、麦克风阵列(Microphone Array)

由一定数目的声学传感器(一般是麦克风)组成,用来对声场的空间特性进行采样并处理的系统。

能够解决的问题:噪声抑制、回声抑制、去混响、单或多声源定位、声源数目估计、源分离、鸡尾酒会效应。按麦克风个数分:单麦、双麦、多麦。

三、语音识别基本原理与识别流程

1、声波

声音实际上是一种波。常见的mp3等格式都是压缩格式,必须转成非压缩的纯波形文件来处理,比如Windows PCM文件,也就是俗称的wav文件。wav文件里存储的除了一个文件头以外,就是声音波形的一个个点了。下图是一个波形的示例。

声音信号采集和播放经常使用的三个参数为采样频率(SampleRate)、采样位数(SampleSize)、声道数(ChannelCount)。

采样的数据速率就是指每秒所有声道采样数据的总量,计算公式为:

采样频率 * 采样位数 * 声道数 = 采样数据速率

2、语音识别基本流程

语音识别原理的4个基本流程:“输入——编码——解码——输出”

3、语音识别系统结构

语音识别系统本质上是一种模式识别系统,主要包括信号处理和特征提取、声学模型(AM)、语言模型(LM)和解码搜索四部分。

声学前端预处理

是指在特征提取之前,先对原始语音进行处理,部分消除噪声和不同说话人带来的影响,使处理后的信号更能反映语音的本质特征。最常用的前端处理有端点检测和语音增强。端点检测是指在语音信号中将语音和非语音信号时段区分开来,准确地确定出语音信号的起始点。经过端点检测后,后续处理就可以只对语音信号进行,这对提高模型的精确度和识别正确率有重要作用。语音增强的主要任务就是消除环境噪声对语音的影响。目前通用的方法是采用维纳滤波,该方法在噪声较大的情况下效果好于其它滤波器。

a)信号处理和特征提取:

以音频信号为输入,通过消除噪声和信道失真对语音进行增强,将信号从时域转化到频域,并为后面的声学模型提取合适的有代表性的特征向量。

b)声学模型:

将声学和发音学的知识进行整合,以特征提取部分生成的特征为输入,并为可变长特征序列生成声学模型分数。对应于语音到音节概率分布的计算。

语音识别,可分为“传统”识别方式与“端到端”识别方式,其主要差异就体现在声学模型上。“传统”方式的声学模型一般采用隐马尔可夫模型(HMM),而“端到端”方式一般采用深度神经网络(DNN)。

c)语言模型:

语言模型估计通过训练语料学习词与词之间的相互关系,来估计假设词序列的可能性,又叫语言模型分数。如果了解领域或相关的先验知识,语言模型的分数通常可以估计的更准确。对应于音节到字概率分布的计算。

d)解码搜索:

综合声学模型分数与语言模型分数的结果,将总体输出分数最高的词序列当做识别结果。

4、语音识别系统构建过程

1)训练:训练通常是离线完成的,对预先收集好的海量语音、语言数据库进行信号处理和知识挖掘,获取语音识别系统所需要的“声学模型”和“语言模型”

2)识别:识别过程通常是在线完成的,对用户实时的语音进行自动识别,识别过程通常又可以分为“前端”和“后端”两大模块。

A.前端:前端模块主要的作用是进行端点检测(去除多余的静音和非说话声)、降噪、特征提取等;

B.后端:后端模块的作用是利用训练好的“声学模型”和“语言模型”对用户说话的特征向量进行统计模式识别(又称“解码”),得到其包含的文字信息,此外,后端模块还存在一个“自适应”的反馈模块,可以对用户的语音进行自学习,从而对“声学模型”和“语音模型”进行必要的“校正”,进一步提高识别的准确率。

四、搜狗录音助手—连接硬件的实时语音识别

1、音频编码和解码

音频编码的目标就是尽可能压缩原始采样数据,节省带宽,方便文件存储和网络传输。音频编码大致可以分为两类:无损编码和有损编码。

第一类是无损编码,比如FLAC是一种对原始 PCM 进行无损压缩的编码库。无损编码的特点是信息解码后不会有任何的丢失,解码后每一比特都和原始采样数据一致。无损编码最大的特点是大,占用空间或带宽很多。

实际中使用最多的都是有损编码,一般是使用离散余弦变换等数学方法将信号从时域转换到频域,将人耳不敏感的频域部分信息过滤掉,然后进行编码。有损音频编码常见的有:MP3、WMA、AAC、Speex、Opus等。有损编码也都有相应的解码器,解码器就是将压缩后的数据在一定程度上还原为 PCM 数据,解码得到的 PCM 数据与原始采样数据是有差异的,这也是称之为有损编码的原因。

2、录音笔实时录音转写

(1). 录音笔多麦克风阵列收音(C1 Max为例),存储2种格式的音频文件:opus格式(用于传输,压缩格式,便于传输)、wav格式(用于听感);

(2). opus格式的音频文件,通过BLE协议,传输到App端;

(3). APP端的解码库对传输的opus音频文件进行无损解码,生成标准的PCM流;

(4). 语音SDK(前端库)将多声道的PCM流进行合并,合成为一声道的PCM;(多声道的pcm流过搜狗语音的阵列生成两路pcm,一路用于听感、一路用于识别,然后输出mp3)

(5). 语音识别SDK和知音平台服务端建立gPRC连接,获取PCM流文件的文字识别结果;

(6). 语音识别SDK通过回调,返回给native识别结果,native进行展示。


注:参考文章

https://zh.wikipedia.org/wiki/%E8%AF%AD%E9%9F%B3%E8%AF%86%E5%88%AB

https://zhuanlan.zhihu.com/p/22512377

https://zhuanlan.zhihu.com/p/105454729

http://blog.itpub.net/29829936/viewspace-2652896/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-10-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 搜狗测试 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
业界|科大讯飞语音识别框架最新进展——深度全序列卷积神经网络登场
导读:目前最好的语音识别系统采用双向长短时记忆网络(LSTM,LongShort Term Memory),但是,这一系统存在训练复杂度高、解码时延高的问题,尤其在工业界的实时识别系统中很难应用。科大讯飞在今年提出了一种全新的语音识别框架——深度全序列卷积神经网络(DFCNN,Deep Fully Convolutional NeuralNetwork),更适合工业应用。本文是对科大讯飞使用DFCNN应用于语音转写技术的详细解读,其外还包含了语音转写中口语化和篇章级语言模型处理、噪声和远场识别和文本处理实时
AI科技评论
2018/03/07
3.9K0
业界|科大讯飞语音识别框架最新进展——深度全序列卷积神经网络登场
音频编码:入门看这篇就够了丨音视频基础
(本文基本逻辑:音频编码的理论基础 → PCM 编码 → AAC 编码工具集、编码流程、编码规格和数据格式)
关键帧
2022/06/13
4.5K0
音频编码:入门看这篇就够了丨音视频基础
算法基础(6)| 语音识别DTW算法小讲
时至今日,语音识别已经有了突破性进展。2017年8月20日,微软语音识别系统错误率由5.9%降低到5.1%,可达到专业速记员的水平;国内语音识别行业的佼佼者科大讯飞的语音听写准确率则达到了95%,表现强悍。国内诸如阿里、百度、腾讯等大公司,也纷纷发力语音识别,前景一片看好。
用户7623498
2020/08/04
1.9K0
算法基础(6)| 语音识别DTW算法小讲
从不温不火到炙手可热:语音识别技术简史
【导读】语音识别自半个世纪前诞生以来,一直处于不温不火的状态,直到 2009 年深度学习技术的长足发展才使得语音识别的精度大大提高,虽然还无法进行无限制领域、无限制人群的应用,但也在大多数场景中提供了一种便利高效的沟通方式。本篇文章将从技术和产业两个角度来回顾一下语音识别发展的历程和现状,并分析一些未来趋势,希望能帮助更多年轻技术人员了解语音行业,并能产生兴趣投身于这个行业。
AI科技大本营
2019/08/23
1.6K0
从不温不火到炙手可热:语音识别技术简史
语音识别技术的发展与未来趋势:深度学习、端到端建模与多模态融合
语音识别(Speech Recognition)技术是指将口述或语音信号转化为文本或命令的自动化过程。随着深度学习技术的快速发展,语音识别取得了长足的进步,成为人机交互、智能助理和语音控制等领域的核心技术之一。本文将详细介绍语音识别技术的发展历程,重点介绍了深度学习、端到端建模以及多模态融合等技术在语音识别领域的应用,并展望了未来的发展趋势。
网络技术联盟站
2023/07/04
1K0
语音识别技术的发展与未来趋势:深度学习、端到端建模与多模态融合
ZLG深度解析——语音识别技术
语言作为人类的一种基本交流方式,在数千年历史中得到持续传承。近年来,语音识别技术的不断成熟,已广泛应用于我们的生活当中。语音识别技术是如何让机器“听懂”人类语言?本文将为大家从语音前端处理、基于统计学语音识别和基于深度学习语音识别等方面阐述语音识别的原理。
刘盼
2019/05/17
2.4K0
ZLG深度解析——语音识别技术
机器语音识别技术发展脉络概览 | 文末有彩蛋
通常我们说到语音识别技术的时候,指的是整个语音对话系统,如图所示,语音对话系统通常包括四个主要组成部分的一个或多个:语音识别系统将语音转化为文本、语义理解系统提取用户说话的语义信息、文字转语音系统将内容转化为语音、对话管理系统连接其他三个系统并完成与实际应用场景的沟通。所有这些部分对建立一个成功的语音对话系统都是很关键的。
用户7623498
2020/08/04
9730
机器语音识别技术发展脉络概览 | 文末有彩蛋
王尔玉:语言与语义识别的技术发展与趋势
12月15日,由腾讯云主办的首届“腾讯云+社区开发者大会”在北京举行。本届大会以“新趋势•新技术•新应用”为主题,汇聚了超40位技术专家,共同探索人工智能、大数据、物联网、小程序、运维开发等热门技术的最新发展成果,吸引超过1000名开发者的参与。以下是大数据AI分会场的演讲内容,稍作整理,分享给大家。
腾讯云开发者社区技术沙龙
2018/12/24
2.5K0
王尔玉:语言与语义识别的技术发展与趋势
ASR(语音识别)评测学习
小编新接触语音SDK项目,SDK无UI、底层调用多个C++算法库、提供的是AI服务。语音AI项目,识别效果是至关重要的一环,识别效果评测也是一项测试重点。为了制定一个专业、全面的效果评测的方案,小编学习了相关知识,对方案制定有了初步思路。希望对测试小伙伴有所帮助~~(●—●)
用户5521279
2020/12/24
8.3K0
语音识别技术的进步与挑战
大家好,我是Echo_Wish。今天我们来聊聊语音识别技术,这个已经深入到我们日常生活中的神奇技术。从智能音箱到手机助手,再到车载导航系统,语音识别无处不在。它的快速发展给我们的生活带来了极大的便利,但同时也面临着诸多挑战。
Echo_Wish
2025/02/24
1580
语音识别技术的进步与挑战
语音信息转换的新纪元
一、引言 在信息爆炸的时代,语音作为人类沟通的重要方式,承载着大量的知识和信息。然而,传统的语音处理方式往往受限于时间和空间的限制,使得语音信息的整理、存储和检索变得复杂而耗时。随着人工智能技术的不断突破,音频AI生成文字技术应运而生,它为语音信息处理带来了革命性的变革,开启了一个崭新的纪元。 音频AI生成文字技术,简而言之,就是利用人工智能算法将语音信号转换为文字信息的过程。这项技术不仅极大地提高了信息处理的效率,还打破了语言交流的障碍,使得语音内容的分析和利用变得更加便捷。在过去的几年里,我们见证了这项技术从实验室走向实际应用,从简单的语音识别到复杂的语音翻译,其应用范围已经渗透到生活的方方面面。 这项技术的核心在于其强大的语音识别能力,它能够准确捕捉语音中的细微差异,理解不同语言和口音,甚至能够在嘈杂的环境中提取有效的语音信息。通过深度学习、自然语言处理等先进算法,音频AI生成文字技术正逐渐克服传统语音识别的局限,不断提升识别的准确率和速度。 在本文中,我们将深入探讨音频AI生成文字技术的基础原理、发展历程、应用场景以及未来趋势。我们将看到,这项技术如何改变传统的信息处理方式,如何推动智能语音交互、智能客服、语音翻译等多个领域的创新,以及它如何为残障人士提供便利,为教育、医疗等行业带来深刻的变革。 总之,音频AI生成文字技术不仅是一项技术革新,更是一种生活方式的转变。它让我们更加便捷地获取和传递信息,让语音这一古老的信息载体在现代社会焕发出新的活力。随着技术的不断进步,我们有理由相信,音频AI生成文字技术将引领我们进入一个更加智能、高效、互联的未来。
七条猫
2024/08/16
2220
语音信息转换的新纪元
语音识别系统的分类、基本构成与常用训练方法 | Machine Speech
对于想进入语音识别领域的学习者来说,了解语音识别系统的一些基本概念,会有助于更快的进入这个行业的交流平台,本文对语音识别系统的一些常见概念做了整理,希望能对刚开始接触语音学习的人有所帮助。
用户7623498
2020/08/04
5.1K0
10小时训练数据打造多语种语音识别新高度
本文联合撰写: 腾讯:吕志强,颜京豪,胡鹏飞,康健,阿敏巴雅尔 导语|在刚刚结束的NIST OPENASR评测中,TEG AI语音联合清华大学,刷新世界小语种语音识别比赛6项第一。从2000年开始,NIST组织的RT(英文语音识别),LRE(语音语种识别),SRE(语音说话人识别),OPENKWS(语音关键词识别)等比赛一直是语音届的标杆竞赛,其组织比赛方向也可以看出目前学术和工业界的语音研究发展方向。长期以来,NIST组织的语音比赛受到了来自世界一线的研究单位支持与参与。而2020年新增的OPENASR
腾讯高校合作
2021/01/07
1.6K0
语音识别方法汇总与实例搭建
文章目录 语音识别 语音识别过程 预处理:语音信号预处理—提取语音MFCC特征 工具Kaldi DeepSpeech wav2letter 端到端语音识别 语音识别 自动语音识别技术(AUTOMATIC SPEECH RECOGNITION, ASR)是一种将人的语音转换为文本 的技术。语音识别作为一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处 理理论、信息论、计算机科学等众多学科紧密相连。 语音识别近年来受关注度不断提升,相关技术广泛用于家用电器和电子设备,如智能音 箱、声控遥控器
AI拉呱
2021/01/14
9750
自动语音识别(ASR)与文本转语音(TTS)技术的应用与发展
近年来,语音技术在人工智能领域的发展极为迅速,语音识别(ASR)和文本转语音(TTS)作为两项重要的核心技术,被广泛应用于智能助手、客户服务系统、翻译设备以及教育平台等多个领域。这两种技术各自解决了语音交互中的不同问题,共同助力于实现自然、流畅的人机对话。
kwan的解忧杂货铺
2024/11/16
3280
独家 | 一文读懂语音识别(附学习资源)
一、前言 6月27日,美国权威科技杂志《MIT科技评论》公布2017全球最聪明50家公司榜单。科大讯飞名列中国第一、全球第六。全世界排在科大讯飞前面企业分别是:英伟达、Spacex、亚马逊、23andme、Alphabet。 《MIT科技评论》认为,“科大讯飞旗下的语音助手是中国版的Siri,其可携带实时翻译器则是一款杰出的人工智能应用,克服了方言、俚语和背景杂音,可将汉语精准地翻译成十几种语言。科大讯飞在中国语音技术市场的占有率70%。”越来越多的人认为,语音识别将成为下一代交互革命的关键技术。 与此
数据派THU
2018/01/30
2.5K0
独家 | 一文读懂语音识别(附学习资源)
《语音信号处理》整理[通俗易懂]
说话的声音(声带震动)和其他声音相比,有独特的时域和频域模式。声带的震动产生基频(fundamental frequency),口腔共振(the pharyngeal and oral resonance cavities)等产生高频谐波
全栈程序员站长
2022/07/21
1.8K0
《语音信号处理》整理[通俗易懂]
绝佳的ASR学习方案:这是一套开源的中文语音识别系统
ASRT 是一套基于深度学习实现的语音识别系统,全称为 Auto Speech Recognition Tool,由 AI 柠檬博主开发并在 GitHub 上开源(GPL 3.0 协议)。本项目声学模型通过采用卷积神经网络(CNN)和连接性时序分类(CTC)方法,使用大量中文语音数据集进行训练,将声音转录为中文拼音,并通过语言模型,将拼音序列转换为中文文本。基于该模型,作者在 Windows 平台上实现了一个基于 ASRT 的语音识别应用软件它同样也在 GitHub 上开源了。
机器之心
2019/03/06
2.5K0
绝佳的ASR学习方案:这是一套开源的中文语音识别系统
智能音箱大战全面开火,那么问题来了:如何成为一名全栈语音识别工程师?
文 / 陈孝良 11月16号,百度发布了渡鸦智能音箱和DuerOS开发板SoundPi,至此,国内再一名巨头加入智能音箱大战。迄今为止,国内战场上的巨头有阿里、京东、腾讯、百度、小米、科大讯飞等,国外则有苹果、微软、亚马逊、谷歌、脸书、三星等,这些巨头占据了全球市值的排名榜,同时发力争夺未来人工智能时代的语音入口,甚至亚马逊和阿里率先不惜代价开启了补贴大战。这些全球巨头的激烈竞争,将对未来十年产生极其重要的影响,同时,这更是新一波的职业快速发展机会。 语音智能当前的核心关键是声学问题和语义理解,随着市
AI科技大本营
2018/04/27
1.1K0
智能音箱大战全面开火,那么问题来了:如何成为一名全栈语音识别工程师?
Attention-lvcsr、Residual LSTM…你都掌握了吗?一文总结语音识别必备经典模型(三)
 机器之心专栏 本专栏由机器之心SOTA!模型资源站出品,每周日于机器之心公众号持续更新。 本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务,并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。 本文将分 3 期进行连载,共介绍 17 个在语音识别任务上曾取得 SOTA 的经典模型。 第 1 期:NNLM、RNNLM、LSTM-RNNLM、Bi-lstm、Bi-RN
机器之心
2023/02/23
7400
Attention-lvcsr、Residual LSTM…你都掌握了吗?一文总结语音识别必备经典模型(三)
推荐阅读
相关推荐
业界|科大讯飞语音识别框架最新进展——深度全序列卷积神经网络登场
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档