专栏首页产品经理的人工智能学习库语音识别技术 – ASR丨Automatic Speech Recognition

语音识别技术 – ASR丨Automatic Speech Recognition

文章目录

语音识别是什么?他有什么价值,以及他的技术原理是什么?本文将解答大家对语音识别的常见疑问。

语音识别技术(ASR)是什么?

机器要与人实现对话,那就需要实现三步:

对应的便是“耳”、“脑”、“口”的工作,机器要听懂人类说话,就离不开语音识别技术(ASR)。

语音识别已经成为了一种很常见的技术,大家在日常生活中经常会用到:

  • 苹果的用户肯定都体验过 Siri ,就是典型的语音识别
  • 微信里有一个功能是”文字语音转文字”,也利用了语音识别
  • 最近流行的智能音箱就是以语音识别为核心的产品
  • 比较新款的汽车基本都有语音控制的功能,这也是语音识别

语音识别技术讲解

语音识别技术拆分下来,主要可分为“输入——编码——解码——输出 ”4个流程。

那语音识别是怎么工作的呢?

首先声音的本身是一种波,就像我们常常用一段段波形来表示音频一样。 

接下来按步骤:

  1. 给音频进行信号处理后,便要按帧(毫秒级)拆分,并对拆分出的小段波形按照人耳特征变成多维向量信息
  2. 将这些帧信息识别成状态(可以理解为中间过程,一种比音素还要小的过程)
  3. 再将状态组合形成音素(通常3个状态=1个音素)
  4. 最后将音素组成字词(dà jiā hǎo)并串连成句 。于是,这就可以实现由语音转换成文字了。

百度百科和维基百科

百度百科版本

语音识别技术,也被称为自动语音识别 Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

查看详情

维基百科版本

语音识别是计算语言学的跨学科子领域,其开发方法和技术,使得能够通过计算机识别和翻译口语。它也被称为自动语音识别(ASR),计算机语音识别或语音到文本(STT)。它融合了语言学,计算机科学和电气工程领域的知识和研究。

一些语音识别系统需要“训练”(也称为“登记”),其中个体说话者将文本或孤立的词汇读入系统。系统分析人的特定声音并使用它来微调对该人的语音的识别,从而提高准确性。不使用训练的系统称为“说话者无关” 系统。使用训练的系统称为“说话者依赖”。

查看详

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 语音合成(Text to Speech | TTS)

    做个比较,当机器的“脑子”里想到了一段内容时,或者是看到了一段话时,知道哪些字应该怎么读:

    easyAI
  • 逻辑回归 – Logistic regression

    逻辑回归(Logistic Regression)主要解决二分类问题,用来表示某件事情发生的可能性。

    easyAI
  • 音素 – phone | phonetics

    在语音合成中,有一种关键技术是将文字拆解成音素,再去语音库里匹配相同音素的语音片段,来实现文字转换语音,那么音素到底是什么?

    easyAI
  • 依图要修AI语音双学位,左手摸底考第一名成绩单,右手开放平台方案

    这家以“图”起家的AI公司,现在宣布修个“语音”双学位,而且出场便是学霸的方式——随手甩出一张摸底考第一名成绩单。

    量子位
  • 学界 | 一文概览语音识别中尚未解决的问题

    机器之心
  • 谷歌公司开发出高速、离线语音识别技术

    据科技资讯网站zdnet(www.zdnet.com)报道,谷歌开发出了可在未联网的Nexus 5智能手机上实时运行的语音识别系统。该系统无需通过远程数据中心进...

    人工智能快报
  • 动态 | 新里程碑!微软语音到文字转录已经达到人类水平

    AI 科技评论按:语音到文字的转换是语音研究领域的重要课题。自引入神经网络的方法以来,语音识别正确率有了长足的进展,也为苹果 Siri、亚马逊 Echo、科大讯...

    AI科技评论
  • 动态 | 语音识别如何突破延迟瓶颈?谷歌推出了基于 RNN-T 的全神经元设备端语音识别器

    AI 科技评论按:在近二十年来,尤其是引入深度学习以后,语音识别取得了一系列重大突破,并一步步走向市场并搭载到消费级产品中。然而在用户体验上,「迟钝」可以算得上...

    AI科技评论
  • 全离线,无延迟!谷歌手机更新语音识别系统,模型大小仅80M

    识别延迟一直是设备端语音识别技术需要解决的重大问题,谷歌手机今天更新了手机端的语音识别技术——Gboard,重磅推出了一款端到端、全神经、基于设备的语音识别器,...

    大数据文摘
  • 实现一款简单的语音直播系统源码哪些步骤?

    快节奏的生活下,人们想要扩大自己的交际圈,需要情感的宣泄也需要隐私保护,在这种情况下,语音聊天有了市场。相比于直播视频类的社交软件来说,语音直播系统源码有着更多...

    布谷安妮

扫码关注云+社区

领取腾讯云代金券