前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >智能语音相关介绍

智能语音相关介绍

原创
作者头像
用户10922768
发布2024-06-20 12:15:32
2370
发布2024-06-20 12:15:32

1.介绍

语音是指人类通过发音系统,包括肺部、气管、喉部声门和声带、咽腔、口腔、鼻腔等,发出的在空气中传播的、具有一定意义的声音,是语言的声音形式,是人人交流中最主要的信息载体。另外,通过让机器能听会说,语音也成为人机交互的重要入口。

语音技术一般包括传输、存储、识别、合成、增强等方面,智能语音技术的研发主要聚焦于语音的识别理解、合成输出和声音增强。随着信息技术的发展,智能语音技术已经成为人们信息获取和沟通最便捷、最有效的手段[1]。对智能语音技术的研究可追溯到上个世纪 50 年代,在经历了萌芽期、起步期、变革期后,目前正在进入发展高峰期。由智能语音技术驱动的语音用户界面已成为键盘鼠标、触摸之后的新一代人机交互界面。语音识别技术更是被认为已具备较高的成熟度水平,随着 PC、平板、手机、IOT等设备走入了干家万户,消费者对其依赖程度越来越高同时还为不同行业提供语音转文字的基本通用能力,如在智慧客服、智慧教育等垂直领域。技术进步也带来了智能语音市场规模的快速增长,德勤报告显示,预计 2030 年消费级应用场景将超过 700 亿元,企业级应用场景在疫情的催化下也将加速发展,预计会达到干亿规模

2.智能语音技术发展背景

对语音技术的研究可追溯至上世纪50 年代。受限于计算机能力和信号处理技术水平,早期学者们对语音技术的研究主要聚焦在声学语音学方面,开发的识别系统可用来识别通过模拟装置产生的在频谱上具有共振峰特性的不同元音。1952 年贝尔实验室研发出第一个特定人数字识别系统 Audery,该系统可以识别英文发音的 10 个阿拉伯数字 0~9,对熟人发音的识别准确率达到 90%以上,对陌生人则偏低。1962 年IBM 推出 Shoebox 系统,可以识别和理解 16 个英文单词,以及对 10 个数字进行加减运算的语音指令。1972 年,CMU 发布了针对孤立词语以及简单句式的语音识别系统 Harpy,该系统能够识别 1011 个单词,使大词汇量、孤立词识别取得突破性进展。同期语音端点检测的概念和方法也被提出,进一步提升了语音识别的能力。随着线性预测编码和动态规划技术的发展,语音信号建模问题和时序匹配问题得到了更好的解决,建模思路也开始从传统的基于模板匹配的方法发展为基于概率统计的方法,从而将语音识别从孤立词识别阶段推进到连续语音识别阶段,进入二十世纪, 80 年代,隐马尔可夫模型(HMM,Hidden MarkovModel)被用来建模短时平稳的语音信号的动态特性,解决连续语音识别问题。1988 年第一个非特定人、大词汇量、连续语音识别系统 SPHINX 问世,可支持近 1000 个词汇。进入 90 年代GMM-HMM(GMM,Gaussian Mixture Model)成为语音识别的主流框架,语音识别水平也在逐渐提升,实现了超过上万词汇量的大词表连续语音识别系统(LVCSR,Large VocabularyContinuous Speech Recognition)。然而,受限于训练语料规模、模型建模能力以及计算机水平这一时期技术水平只能支持简单的产品形态,未达到支持大规模商用的成熟度2006 年基于深度学习理论的建模方法在机器学习任务被成功应用。深度神经网络(DNN,Deep Neural Network)通过多层非线性结构将输入特征转换为更加抽象的高层表示,具有更强

3.智能语音关键技术

按语音的应用场景可以将智能语音技术分为人机交互和人人交流两大类。在人机交互方面的应用主要是为了让机器更好地听懂、理解和表达,涉及语音声学前端信号处理、语音识别、说话人识别、语义理解和对话管理,以及语音合成等方面的技术;在人人交流方面主要是人与人自然交谈的“泛会议”场景的应用,例如智能会议、客服质检、智慧医疗等,声学前端处理的目标一方面是获得更准确的识别和分析结果,另一方面是提高人人通话的语音质量。联想在语音核心技术上进行全栈布局,包括声学前端、语音唤醒、语音识别、语音合成、副语言语音属性识别、说话人日志、发音评测等几大方向,单点技术的算法性能在众多国际评测中取得了优异成绩,处于国际前列的水平;同时在推进核心算法落地方面,联想依托设备和行业解决方案上的优势,通过多技术组合打造自研的语音技术解决方案。

前端信号处理

语音活动检测

回声消除

语音分离

声学模型

声纹识别

音频分类

4.未来展望

语音作为最自然的交互方式,承载着重要信息,语音信息的分析和处理技术会越来越深入地影响人类生活和生产活动。在需求的驱动下,随着人工智能技术的不断发展、硬件基础设施不断进步,语音技术的基础性能必将持续增强,加速其在更多领域的商业化应用。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.介绍
  • 2.智能语音技术发展背景
  • 3.智能语音关键技术
  • 4.未来展望
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档