首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

Linux下利用python实现语音识别详细教程

语音识别源于 20 世纪 50 年代早期在贝尔实验室所做的研究。早期语音识别系统仅能识别单个讲话者以及只有约十几个单词的词汇量。现代语音识别系统已经取得了很大进步,可以识别多个讲话者,并且拥有识别多种语言的庞大词汇表。 语音识别的首要部分当然是语音。通过麦克风,语音便从物理声音被转换为电信号,然后通过模数转换器转换为数据。一旦被数字化,就可适用若干种模型,将音频转录为文本。 大多数现代语音识别系统都依赖于隐马尔可夫模型(HMM)。其工作原理为:语音信号在非常短的时间尺度上(比如 10 毫秒)可被近似为静止过程,即一个其统计特性不随时间变化的过程。 许多现代语音识别系统会在 HMM 识别之前使用神经网络,通过特征变换和降维的技术来简化语音信号。也可以使用语音活动检测器(VAD)将音频信号减少到可能仅包含语音的部分。 幸运的是,对于 Python 使用者而言,一些语音识别服务可通过 API 在线使用,且其中大部分也提供了 Python SDK。

05

干货 | 对端到端语音识别网络的两种全新探索

AI 科技评论按:语音识别技术历史悠久,早在上世纪 50 年代,贝尔研究所就研究出了可以识别十个英文数字的简单系统。从上世纪 70 年代起,传统的基于统计的 HMM 声学模型,N 元组语言模型的发明,已经使得语音识别技术可以在小规模词汇量上使用。在新世纪伊始,GMM-HMM 模型的序列鉴别性训练方法的提出又进一步提升了语音识别的准确率。最近 5-10 年间,随着深度学习的快速发展,算力的快速增长,数据量的急速扩张,深度学习开始大规模应用于语音识别领域并取得突破性进展,深度模型已经可以在干净标准的独白类音频上达到 5% 以下的错词率。此外,端到端的模型可以轻松的将各种语言揉合在一个模型中,不需要做额外的音素词典的准备,这将大大推动业界技术研究与应用落地的进度。

04

博客 | 论文解读:对端到端语音识别网络的两种全新探索

雷锋网 AI 科技评论按:语音识别技术历史悠久,早在上世纪 50 年代,贝尔研究所就研究出了可以识别十个英文数字的简单系统。从上世纪 70 年代起,传统的基于统计的 HMM 声学模型,N 元组语言模型的发明,已经使得语音识别技术可以在小规模词汇量上使用。在新世纪伊始,GMM-HMM 模型的序列鉴别性训练方法的提出又进一步提升了语音识别的准确率。最近 5-10 年间,随着深度学习的快速发展,算力的快速增长,数据量的急速扩张,深度学习开始大规模应用于语音识别领域并取得突破性进展,深度模型已经可以在干净标准的独白类音频上达到 5% 以下的错词率。此外,端到端的模型可以轻松的将各种语言揉合在一个模型中,不需要做额外的音素词典的准备,这将大大推动业界技术研究与应用落地的进度。

03

【专访微软黄学东】0.1%,0.2%与0.3%,语音识别军备竞赛中小数点差距有何意义

【新智元导读】 微软语音识别研究团队在黄学东的带领下,去年将语音识别的单词错误率降至5.9%,又在最近降至5.1%。在本次专访中,我们讨论了语音识别错误率百分之几的小数点在研究和实际应用上的意义。黄学东认为,从研究角度来说,这个意义十分重大,即便是0.1%的差距,无论是运算量还是时间,耗费都是巨大的。 达到人类水平,超越人类水平,人工智能研究领域的突破性进展。 以上赞誉被给予了微软最近的语音识别研究成果:其语音识别研究团队在黄学东的带领下,去年将语音识别的单词错误率降至5.9%,又在最近降至5.1%。 从研

07

腾讯教育智聆口语评测亮相微信公开课,英语好不好AI告诉你

“没想到我的中文语音测评分数竟然还没有英文高,看来我要好好练习一下自己的普通话发音了。” 1月9日,在腾讯2019微信公开课PRO展区,智聆口语评测体验现场受到参会者的“团宠”,黄色的屏幕前围满了跃跃欲试的参会者,都想测试下自己的中英文发音水平。“这是我第一次体验AI口语评测。之前觉得只有参加那种专业口语测评考试才有机会体验到,现在通过微信小程序就很简单的完成了。而且,单词、句子、段落、自由说、情景对话等评测模式一应俱全,还有不同维度的打分,对英语口语训练挺有帮助。”来自深圳的孙小姐在微信小程序上

02

作为搜狗语音交互补充的唇语识别 发展到哪一步了

无声的世界里,你只要动动嘴唇,就可以被识别出说了什么、甚至被转化为语音,是不是很智能便利、同时又颇为惊悚? 今年12月,第四届世界互联网大会,搜狗发布唇语识别技术,也系业内首次公开演示。其背后的商业逻辑是什么?这项技术发展到什么地步了? 一、为什么要做唇语识别 搜狗语音交互技术中心负责人陈伟首先回顾了搜狗在语音交互方面的发展历史——早期搜狗于移动时代主要做两件事——输入法与搜索。后来进入智能时代,设备由手机变为IOT设备,人与智能硬件之间的连接也变为搜狗知音引擎这样的自然交互引擎,而硬件、信息,或更深度

06
领券