开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

中文语音识别开源

中文语音识别开源是指采用开源方法和技术进行中文语音识别的过程。在这个过程中，开发人员可以使用各种开源工具和库来实现语音识别功能。这种方法可以让开发人员更加灵活地控制语音识别的各个环节，并且可以随时修改和改进语音识别的算法和模型。

在中文语音识别开源中，常见的开源工具和库包括：

Kaldi：一个用于语音识别和语音合成的开源工具箱，可以用来实现语音识别的各个环节，包括声学特征提取、语言模型和声学模型等。
DeepSpeech：一个基于深度学习的开源语音识别引擎，可以用来实现端到端的语音识别。该引擎使用了卷积神经网络（CNN）和长短时记忆网络（LSTM）等深度学习技术。
Mozilla Common Voice：一个由Mozilla开发的开源语音数据集，可以用来训练语音识别模型。该数据集包含了超过40种语言的数据，其中包括中文。

在实际应用中，中文语音识别开源可以应用于各种场景，例如智能语音助手、自动语音转录、语音控制系统等。开发人员可以根据自己的需求选择合适的开源工具和库，并且可以使用腾讯云的语音识别服务来实现更加准确和高效的语音识别。腾讯云语音识别服务提供了灵活的API接口和多种语言的SDK，可以方便地集成到开发人员的应用程序中。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

语音界传奇Dan Povey突遭美霍普金斯大学解雇，计划转投中国

语音界大佬、开源语音识别系统 kaldi 的开发者 Dan Povey 被约翰・霍普金斯大学 (JHU) 解雇了。

03

打破国外垄断，出门问问主导研发的端到端语音识别开源框架WeNet实践之路

今年 2 月，中国人工智能公司出门问问联合西北工业大学推出了全球首个面向产品和工业界的端到端语音识别开源工具 ——WeNet。

03

大咖面对面| 陈果果博士谈智能语音

智能语音在近年一直是个很火的话题，商业应用也在不断增加，在10月10号的深蓝&大咖面对面活动中，我们邀请到了语音界大佬陈果果博士，针对目前语音领域问题进行分享与探讨。

02

【玩转腾讯云】只需三分钟，再也不用听60秒长语音

现实生活中，越来越多的地方需要使用到语音识别，微信里客户的长条语音，游戏里更方便快速的交流，都是语音识别的重要场景。现在为大家强力推荐腾讯云语音识别，一款为企业和开发者提供极具性价比的语音识别服务。腾讯云语音识别服务经微信、腾讯视频、王者荣耀、和平精英等大量内部业务验证；同时也在线上线下大量互联网、金融、教育等领域的外部客户业务场景下成功落地。同时日服务亿级用户，具有海量数据支撑、算法业界领先、支持语种丰富、服务性能稳定、抗噪音能力强、识别准确率高等优势。

横评：五款免费开源的语音识别工具

编者按：本文原作者 Cindi Thompson，美国德克萨斯大学奥斯汀分校（University of Texas at Austin）计算机科学博士，数据科学咨询公司硅谷数据科学（Silicon Valley Data Science，SVDS）首席科学家，在机器学习、自然语言处理等领域具有丰富的学术研究和产业界从业经验。AI 研习社编译。作为 SVDS 研究团队的成员，我们会经常接触各种不同的语音识别技术，也差不多见证了语音识别技术近几年的发展。直到几年之前，最先进的语音技术方案大多都是以语音为

拥有人工智能的机器人能否取代人类？听大牛怎么说

微软Build开发者大会、Facebook F8开发者大会以及Google I/O开发者大会被称为行业的风向标，而人工智能已成为绝大多数开发人员无法绕过的技术，聊天机器人、人工智能助理的流行，也预示着应用交互界面将迎变革。人工智能带来哪些困扰和机遇？未雨绸缪，移动开发者应当如何借势人工智能？本次人工智能专场将汇聚人工智能领域的技术精英，解析如何利用人工智能前沿技术，让应用好看、好用、好玩。本文将带您全方位了解MDCC 2016人工智能与机器人专访细则，大会门票 8 折优惠将于明天结束，欲购从速！五人以上团

05

ISD9160学习笔记08_结项总结

时间过的真快，一转眼两个月时间过去了。我可能是这批活动参与者中最忙的一个吧，作为一个负责十多个项目的小leader，期间小孩又肺炎住院了大半个月，需要平衡工作和家庭，时间真的很不够用。

01

绝佳的ASR学习方案：这是一套开源的中文语音识别系统

ASRT 是一套基于深度学习实现的语音识别系统，全称为 Auto Speech Recognition Tool，由 AI 柠檬博主开发并在 GitHub 上开源（GPL 3.0 协议）。本项目声学模型通过采用卷积神经网络（CNN）和连接性时序分类（CTC）方法，使用大量中文语音数据集进行训练，将声音转录为中文拼音，并通过语言模型，将拼音序列转换为中文文本。基于该模型，作者在 Windows 平台上实现了一个基于 ASRT 的语音识别应用软件它同样也在 GitHub 上开源了。

04

语音识别系列︱paddlehub的开源语音识别模型测试（二）

这一篇开始主要是开源模型的测试，百度paddle有两个模块，paddlehub / paddlespeech都有语音识别模型，这边会拆分两篇来说。整体感觉，准确度不佳，而且语音识别这块的使用文档写的缺胳膊少腿的；使用者需要留心各类安装问题。

02

依图做语音了！识别精度创中文语音识别新高点

素来被认为是“人脸识别独角兽”——或者更宽泛一点说，“计算机视觉独角兽”的依图科技，公布了他们中文语音识别技术的最新突破，以及令人瞩目的产业布局。

03

语音识别系列︱利用达摩院ModelScope进行语音识别+标点修复（四）

终于有时间更新语音识别系列了，之前的几篇：语音识别系列︱用python进行音频解析（一）语音识别系列︱paddlehub的开源语音识别模型测试（二）语音识别系列︱paddlespeech的开源语音识别模型测试（三）

03

语音识别流程梳理

其中，声学模型主要描述发音模型下特征的似然概率，语言模型主要描述词间的连接概率；发音词典主要是完成词和音之间的转换。接下来，将针对语音识别流程中的各个部分展开介绍。

03

微软首位华人“全球技术院士”黄学东：10个神经网络造就工程奇迹

【新智元导读】微软语音识别技术24年老将黄学东近日被评为“微软全球技术院士”，成功摘下这一微软技术的“桂冠”。黄学东于1993年加入微软。1995年，黄学东最终把洪小文也拉入微软。黄学东还曾在Bing工作，一直跟随沈向洋博士。接受新智元的专访时，他谈到了去年微软对话语音识别词错率低至5.9%背后的故事。同时，黄学东认为语音识别的下一个大难关是语义理解，目前看来最有希望的路线是 LSTM + Attention。黄学东，微软语音识别技术 24 年老将，IEEE/ACM 双科院士，微软深度学习工具包CNT

07

GitHub 3.1K，业界首个流式语音合成系统开源！

智能语音技术已经在生活中随处可见，常见的智能应用助手、语音播报、近年来火热的虚拟数字人，这些都有着智能语音技术的身影。智能语音是由语音识别，语音合成，自然语言处理等诸多技术组成的综合型技术，对开发者要求高，一直是企业应用的难点。

01

实战：基于tensorflow 的中文语音识别模型 | CSDN博文精选

目前网上关于tensorflow 的中文语音识别实现较少，而且结构功能较为简单。而百度在PaddlePaddle上的 Deepspeech2 实现功能却很强大，因此就做了一次大自然的搬运工把框架转为tensorflow….

01

开发 | Kaldi集成TensorFlow，两个开源社区终于要一起玩耍了

AI科技评论按：自动语音识别（Automatic speech recognition，ASR）领域被广泛使用的开源语音识别工具包 Kaldi 现在也集成了TensorFlow。这一举措让Kaldi的

06

NLP 发展如何？机器之心 SOTA 模型库、知识库告诉你答案

机器之心发布机器之心编辑部机器之心《2020-2021 全球 AI 技术趋势发展报告》节选：顶会趋势（NeurIPS）分析。 2021 年伊始，机器之心发布《2020-2021 全球 AI 技术趋势发展报告》，基于顶会、论文及专利等公共数据、机器之心专业领域数据仓库，通过数据挖掘定位七大趋势性 AI 技术领域。此外，该报告还邀请了近 100 位专家学者通过问卷调查，形成对这七大技术领域近年发展情况、成熟度与未来趋势的综合总结，并基于 2015-2020 年间的开源论文与专利语料，结合机器之心自有的新闻

01

GitHub 3.1K，业界首个流式语音合成系统开源！

智能语音技术已经在生活中随处可见，常见的智能应用助手、语音播报、近年来火热的虚拟数字人，这些都有着智能语音技术的身影。智能语音是由语音识别，语音合成，自然语言处理等诸多技术组成的综合型技术，对开发者要求高，一直是企业应用的难点。飞桨语音模型库 PaddleSpeech ，为开发者提供了语音识别、语音合成、声纹识别、声音分类等多种语音处理能力，代码全部开源，各类服务一键部署，并附带保姆级教学文档，让开发者轻松搞定产业级应用！ PaddleSpeech 自开源以来，就受到了开发者们的广泛关注，关注度持续上涨。

02

依图要修AI语音双学位，左手摸底考第一名成绩单，右手开放平台方案

这家以“图”起家的AI公司，现在宣布修个“语音”双学位，而且出场便是学霸的方式——随手甩出一张摸底考第一名成绩单。

02

GitHub 3.1K，业界首个流式语音合成系统开源！

大家好，我是崔庆才。想必大家在开发项目过程中可能或多或少用到语音识别、语音合成等相关技术，但又不知道哪家的服务好，而且有的收费还贼贵。尤其流式识别更是个难题。今天我给大家推荐一个流式语音合成库，现在在 GitHub 上已经开源，而且已经斩获 3.1k star，效果很不错，同时这也是业界首个流式语音合成系统，推荐给大家试试。具体详情大家可以了解下文哈，最后还有直播课，大家感兴趣欢迎扫码了解。智能语音技术已经在生活中随处可见，常见的智能应用助手、语音播报、近年来火热的虚拟数字人，这些都有着智能语音技术

01

从零开始搭建一个语音对话机器人

最近在研究语音识别方向，看了很多的语音识别的资料和文章，了解了一下语音识别的前世今生，其中包含了很多算法的演变，目前来说最流行的语音识别算法主要是依赖于深度学习的神经网络算法，其中RNN扮演了非常重要的作用，深度学习的应用真正让语音识别达到了商用级别。然后我想动手自己做一个语音识别系统，从GitHub上下载了两个流行的开源项目MASR和ASRT来进行复现，发现语音识别的效果没有写的那么好，其中如果要从零来训练自己的语言模型势必会非常耗时。

03

从“无人问津”到“最热风口”，智能语音的考验才刚刚开始 | 数据科学50人•俞凯

从“冷板凳”到“最热风口”，俞凯博士（思必驰联合创始人、首席科学家）一直相信人机交互，将带给人类一个更美好的未来。并且，他还有一个更远大的目标，借助科技，沟通万事、打理万物，从而改变世界。

02

语音转字幕：Whisper模型的功能和使用

模型下载地址：https://huggingface.co/ggerganov/whisper.cpp large-v1模型比较大，但是会更准确一些。我这边就用large系列模型好了，虽然显卡不咋地，但是跑这个还是够用了,根据限制自行选择模型，占用内存越大越准确。

00

对话微软黄学东：语音语言技术是镶在 AI 皇冠上的明珠

AI 科技评论按：上一次你和你的电脑进行有意义的对话，并感受到它能真正地理解你，是什么时候？如果微软技术研究员、微软的语言语音小组组长黄学东博士做到了的话，那么你也将可以做到。并且，如果他以往的研究真的达到了他所说的水平的话，这一天的到来可能要比你想的还要快。

03

如何做一个小程序口令红包功能

作者：张先生原文：https://segmentfault.com/a/1190000011014127 在做小程序后端支持的过程中遇到不少有意思的功能，有些比较考你的思维散发及解决问题的实际能力，

欧阳晔李佳朱军入选IEEE Fellow，新晋名单华人占比1/4！还有一位小米大牛

如李飞飞高徒李佳、语音识别大牛Daniel Povey、清华大学朱军、腾讯AI Lab计算机视觉中心总监刘威、亚信科技CTO欧阳晔……

02

产品动态|腾讯云AI 6月产品更新

腾讯云AI团队联合腾讯优图、AILab、微信智聆、微信智言等实验室，帮助合作伙伴和客户高效打造针对性的解决方案，助力各行各业的数字化和智能化转型。 6月腾讯云神图、语音识别、NLP、语音合成更新全新功能；语音识别优化了核心性能。腾讯云神图·人体分析人体关键点识别服务发布，可识别出图片中的人体，并输出14个关键点位置。人体属性识别服务发布，可以识别图片中人体的年龄、性别、朝向、是否有包、着装等，可有效降低视频搜索成本。人体分析官网demo已上线，用户可以在官网直观体验人体分析产品功能、效果。语

09

全新开源！业界首个声纹识别与音频检索系统，10分钟搭建产业级应用

飞桨语音模型库PaddleSpeech，为开发者提供了语音识别、语音合成、声纹识别、声音分类等多种语音交互能力，代码全部开源，各类服务一键部署，并附带保姆级教学文档，让开发者轻松搞定产业级应用！

02

AI科普文章 | 语音识别准不准？—— ASR 效果评测原理与实践

在日常工作、生活中，语音识别技术作为基础服务，越来越多的出现在我们周围，比如智能音箱、会议记录、字幕生成等等。

AI在华东金融专场 | 腾讯云核心伙伴进阶营走进上海

11月18-19日，“腾讯云•核心伙伴进阶营•基础产品专场”活动在上海成功举办。本次活动选取了适合合作伙伴推广的私有化标准产品，从伙伴激励、渠道赋能、技术支持等多个维度助力合作伙伴提升在腾讯云基础产品的能力，帮助合作伙伴将AI产品集成到客户的项目中，解决数字化转型中遇到的问题。随着人工智能技术的发展，人工智能相关的产品服务已广泛渗透到金融行业中，且日渐成熟，并推动银行、保险、资本等金融行业的深刻变革。依托在金融行业的业务落地经验，并通过持续不断的深耕各行业与区域，将AI生态更深、更广、更全面的融入各行

02

AI在华东金融专场 | 腾讯云核心伙伴进阶营走进上海

11月18-19日，“腾讯云•核心伙伴进阶营•基础产品专场”活动在上海成功举办。本次活动选取了适合合作伙伴推广的私有化标准产品，从伙伴激励、渠道赋能、技术支持等多个维度助力合作伙伴提升在腾讯云基础产品的能力，帮助合作伙伴将AI产品集成到客户的项目中，解决数字化转型中遇到的问题。

03

机器学习领域的突破性进展(附视频中字)

机器学习的发展涉及到各个方面，从语音识别到智能回复。但这些系统中的“智能”实际上是如何工作的呢？还存在什么主要挑战？在本次讲座中将一一解答。 Google I/O 是由Google举行的网络开发者年会，Google I/O 2016 中围绕机器学习领域的突破性进展进行了探讨。视频内容 CDA字幕组对该视频进行了汉化，附有中文字幕的视频如下：大家好，欢迎来到讲座：关于机器学习的突破性进展。我们探讨了谷歌对于 AI 的长期愿景，以及过去十年对机器学习的研究。这是十分重要的，因为所有用户都期待着奇迹发生。

实现使用语音控制机械臂运动

在电影《钢铁侠》中，我们看到托尼·斯塔克在建造设备时与人工智能贾维斯交流。托尼向贾维斯描述了他需要的零件，贾维斯控制机械臂协助托尼完成任务。随着当今技术的发展，这种实现只是时间问题。因此，我决定尝试自己实现这个功能，用语音控制来操作机械臂，实现人工智能的简单应用。

00

语音识别现状与工程师必备技能

作者 | 陈孝良责编 | 胡永波目前来看，语音识别的精度和速度比较取决于实际应用环境，在安静环境、标准口音、常见词汇上的语音识别率已经超过95%，完全达到了可用状态，这也是当前语音识别比较火热的原因。随着技术的发展，现在口音、方言、噪声等场景下的语音识别也达到了可用状态，但是对于强噪声、超远场、强干扰、多语种、大词汇等场景下的语音识别还需要很大的提升。当然，多人语音识别和离线语音识别也是当前需要重点解决的问题。学术界探讨了很多语音识别的技术趋势，有两个思路是非常值得关注的，一个是就是端到端的语音识别

01

百度语音识别新算法准确率提升超30%，鸿鹄芯片彰显AI落地新打法

昨日，百度语音能力引擎论坛在北京召开。在论坛上，百度展示了其在语音技术上的最新成果，并公开了语音专用终端芯片——百度鸿鹄的落地情况。此外，机器之心也采访了百度语音首席架构师贾磊。百度通过本次发布说明，深度学习端到端技术依然大有发展空间，软件驱动专用芯片设计成 AI 落地新打法。

03

写给设计师的人工智能指南：虚拟私人助理

本期谈谈《虚拟私人助理》相关的内容。我们先大致看下人工智能10大细分行业的典型应用： 1、深度学习／机器学习：预测数据模型与分析数据的软件平台；垃圾邮件检测；金融诈骗检测； 2、自然语言处理：语音识别；智能客服；智能化软件帮助系统；智能化知识管理系统；智能企业形象代表；智能导游；智能查询系统； 3、计算机视觉／图像识别：面部识别软件；基于内容的图片检索；智能交通；医疗计算机视觉和医学图像处理；军事探测和导弹制导；无人驾驶环境检测； 4、手势控制：电脑手势指令系统；游

06

胡歌给大家拜年了！家人们快来跟《繁花》明星学拜年

澎湃新闻近日上线新春互动H5《拜年腔调》，邀请热门电视剧《繁花》里的明星朋友做大家的沪语“私教”，“宝总”胡歌、“陶陶”陈龙、“潘经理”佟晨洁等一齐嘉宾教大家用上海话送上“地道”的新年祝福，延续《繁花》热度，推广沪语方言。

01

『GitHub项目圈选22』推荐5款深受好评的AI开源项目

OpenGlass 这个项目可以让你使用不到 25 美元的现成组件，即可将任何眼镜变成可破解的智能眼镜。

01

FreeSWITCH对接vosk实现实时语音识别

vosk是一个开源语音识别工具，可识别中文，之前介绍过python使用vosk进行中文语音识别，今天记录下FreeSWITCH对接vosk实现实时语音识别。 vosk离线语音识别可参考我之前写的文章：

05

AIoT的人脸识别方案(上)

我一定是对这颗i.MX RT的MCU太过于偏爱，之前已经在上面做了一个语音识别技术方案(见《AIoT的语音识别方案》)，但总觉得我们还能挑战一下更复杂的应用，对于高性能和高运算量最有挑战的还是在视觉方面的应用，目前最广泛应用和接受的还是人脸识别，所以打算把下一个目标放在人脸识别上面。

01

小程序语音识别Demo

首先引入小程序语音识别插件 let plugin = requirePlugin("WechatSI") let manager = plugin.getRecordRecognitionManager() 然后在wxml中设置对应的方法 <i-icon type="translation_fill" catchtouchstart="streamRecord" catchtouchend="endStreamRecord" size="28" color="#3176F7" /> 最后在js中写对应的逻

02

国内首次！这家中国企业的语言AI实力被公认全球No.2！仅次于谷歌

金磊发自凹非寺量子位 | 公众号 QbitAI AI成精，“逼疯”程序员；AI做高数，成绩超过博士；AI写代码，成功调教智能体…… 看多了这种故事，你是不是也觉得，AI太卷了，要上天了。今天回归本源，讲点不那么玄幻的。AI为什么会进化？底层其实没有秘密，无非是语言、视觉等几大基本功。其中，语言能力对AI的智能水平有决定性影响。视觉研究怎么“看”，语言研究“听”、“说”和“理解”。对人类来说，“听”、“说”、“理解”相加，基本等于思维能力，对AI，道理也差不多。最近，咨询机构Gartner发布《

02

工业应用|AI语音技术应用场景及模型库概览

近年来AI技术发展速度迅猛，深入到生活中的方方面面，从手机APP到车载语音系统。今天小PP和大家一起仔细了解，AI技术中的语音技术在各场景的应用，并奉上对应模型~

01

离线环境的中文语音识别 paddlepaddle 与 Speech_Recognition（Sphinx）实践

本文主要针对中文语音识别问题，选用常用的模型进行离线 demo 搭建及实践说明。

01

【开源公告】面对面翻译小程序正式开源

免费开放微信AI团队在机器翻译，智能语音领域的业界领先成果，使开发者简便地在小程序中加入机器翻译，智能语音能力。

06

自动语音识别快速入门，远比你想象的更简单｜ Q推荐

对话式人工智能正在改变我们与计算机交互的方式。简单来说，对话式 AI 就是人与机器之间的交互，它识别语音和文本、意图以及各种语言，以模仿自然语言或人类对话。我们可以看到，如今语音识别的应用远不止于“替代输入法”，手机中必备的语音助手、小屏的便携设备，乃至于智能家居、无人驾驶汽车语音指令交互等众多场景中，语音接入都扮演着不可或缺的角色。然而，当下基于深度学习的语音识别技术应用在实践场景下依然有着门槛偏高、难以快速普及的难题。而 Nemo，一个基于 PyTorch 的开源工具包，正是为对「对话式人工智能」感

02

解锁通用听觉人工智能！清华电子系联合火山语音，开源全新认知导向听觉大语言模型

日前，清华大学电子工程系与火山语音团队携手合作，推出认知导向的开源听觉大语言模型SALMONN (Speech Audio Language Music Open Neural Network)。

01

阿里「杀手锏」级语音识别模型来了！推理效率较传统模型提升10倍，已开源

丰色发自凹非寺量子位 | 公众号 QbitAI 阿里达摩院，又搞事儿了。这两天，它们发布了一个全新的语音识别模型： Paraformer。开发人员直言不讳：这是我们“杀手锏”级的作品。 ——不仅识别准确率“屠榜”几大权威数据集，一路SOTA，推理效率上相比传统模型，也最高可提升10倍。值得一提的是，Paraformer刚宣布就已经开源了。语音输入法、智能客服、车载导航、会议纪要等场景，它都可以hold住。怎么做到的？ Paraformer：从自回归到非自回归我们知道语音一直是人机交互重

02

【解读2015】自然语言处理：持续探索，稳中前行

2015年，整个IT技术领域发生了许多深刻而又复杂的变化，InfoQ策划了“解读2015”年终技术盘点系列文章，希望能够给读者清晰地梳理出技术领域在这一年的发展变化，回顾过去，继续前行。 2015年，借助移动互联网技术、机器学习领域深度学习技术的发展，以及大数据语料的积累，自然语言处理（Natural Language Processing，简称NLP）技术发生了突飞猛进的变化。越来越多的科技巨头开始看到了这块潜在的“大蛋糕”中蕴藏的价值，通过招兵买马、合作、并购的方式、拓展自己在自然语言处理研究领域的业务

05

专访微软研究院俞栋：基于深度学习的语音识别及CNTK的演进

作为人工智能领域的一个重要方向，语音识别近年来在深度学习（Deep Learning）的推动下取得了重大的突破，为人机语音交互应用的开发奠定了技术基础。语音识别技术演进及实现方法、效果，既是语音识别从业者需要系统掌握的知识，也是智能化应用开发者应当了解的内容。日前，微软研究院首席研究员、《解析深度学习-语音识别实践》第一作者俞栋接受CSDN专访，深入解析了基于深度学习的语音识别的最新技术方向，和微软团队的实践心得，并对微软开源的深度学习工具CNTK的迭代思路做了介绍。俞栋介绍了deep CNN、LFMMI

05

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭