开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

为什么Unity语音识别不适用于单个字母？

Unity语音识别不适用于单个字母的原因有以下几点：

单个字母的语音特征不明显：单个字母的发音往往没有明显的特征，声音较短且相似，很难通过语音识别技术准确地识别出具体的字母。
识别准确度较低：由于单个字母的发音特征不够明显，语音识别系统可能会将其误识别为其他相似的字母或者词语，导致识别的准确度较低。
上下文信息不足：语音识别往往需要结合上下文信息来进行准确的识别，单个字母缺乏足够的上下文信息，使得识别系统难以进行准确的判断。
应用场景有限：通常情况下，单个字母很少在实际的语音交互场景中使用，因此针对单个字母的语音识别需求相对较少。

针对Unity语音识别不适用于单个字母的问题，可以考虑以下解决方案：

使用其他输入方式：对于输入单个字母的需求，可以考虑使用其他形式的输入方式，如键盘输入、手写输入等。
结合上下文进行识别：如果必须使用语音进行单个字母的输入，可以考虑结合上下文信息来提高识别准确度，例如通过语音输入整个单词、短语或句子，再从中提取需要的字母。

总结起来，Unity语音识别不适用于单个字母的原因是因为单个字母的语音特征不明显、识别准确度较低、上下文信息不足，并且通常情况下单个字母的语音识别需求较少。在实际应用中，可以考虑使用其他输入方式或者结合上下文信息来满足单个字母的输入需求。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Human Language Processing——Speech Recognition

从图中可以看到，语言信号可以表示为一个d T的matrix。其中，d为向量的维度（不同的表示方法，维度不一样）， T为向量的个数。同理，文本也可以表示为一个V N的matrix，N表示组成text的token（不同的表示方法，token的含义不一样）的个数，V表示token集合的大小（即token去重后的数量）。语音信号的预处理通常采用重叠的稠密采样机制，通常T >> N。语音识别问题的输入输出都是matrix，输入vector及输出token的选取，不同的算法有不同的方式。整体来看，语音识别问题就是一个Seq2Seq的变换问题

01

无监督学习站起来了！Facebook第三代语音识别wav2vec-U，匹敌监督模型，Lecun看了都说好

---- 新智元报道来源：Facebook AI 编辑：LRS 【新智元导读】Facebook在语音识别上又出重磅新作，继wav2vec, wav2vec 2.0以来，又出完全不需要监督数据的wav2vec-U，小众语言也能用语音识别啦！相比显示器、鼠标、键盘这些传统的人机交互方式以外，随着语音识别技术的逐渐成熟，和电子产品进行「对话」也逐渐成为一种稀松平常的人机交互。无论是给计算机或其他设备下达指示，还是回答用户的问题，语音识别在各个方面让电子产品的使用变得更加容易，无需学习，想要干什么只

01

【干货】怎样用深度学习做语音识别

【新智元导读】吴恩达曾经预测当语音识别的准确率从95%上升到99%时，语音识别将会成为人类与计算机交互的新方式。归功于深度学习，这4%的准确率的提升使得语音识别从难以实际应用的技术变成有无限的应用潜力

08

Google发布最新「语音命令」数据集，可有效提高关键词识别系统性能

图源：unsplash 来源 | 雷克世界（公众号ID：raicworld）编译 | 嗯~是阿童木呀、EVA 导语：在本文中，我们描述了Google最新发布的一个用于帮助训练和评估关键词识别系统的口语词汇组成的音频数据集。讨论了为什么这个任务是一个有趣的挑战，以及为什么它需要一个专门的，与用于对完整句子进行自动语音识别的传统数据集所不同的数据集。我们提出了一种对该任务进行可重复、可比较的精确度指标度量方法。描述了数据是如何被收集和验证的，它所包含的内容，以及其以前的版本和属性。通过报告在该数据集上训练的

02

GME接入实战演练

阅读本文大约需要4分钟导语丨Unity作为游戏开发者首选引擎，其引擎强大的图像引擎和功能全面的编辑器为高质量的游戏与应用开发提供了基础。而现有的引擎内并未提供游戏语音技术，本课程介绍Unity引擎集成语音技术，并通过GME实例集成到Unity工程中，与您一起动手实践。一、游戏多媒体引擎GME 1 GME简介游戏多媒体引擎（Game Multimedia Engine，GME）提供一站式语音解决方案。针对不同场景进行深度优化，覆盖游戏、社交、娱乐等多种泛互联网行业应用场景。提供实时语音、语音消息及转文本

03

干货 | 对端到端语音识别网络的两种全新探索

AI 科技评论按：语音识别技术历史悠久，早在上世纪 50 年代，贝尔研究所就研究出了可以识别十个英文数字的简单系统。从上世纪 70 年代起，传统的基于统计的 HMM 声学模型，N 元组语言模型的发明，已经使得语音识别技术可以在小规模词汇量上使用。在新世纪伊始，GMM-HMM 模型的序列鉴别性训练方法的提出又进一步提升了语音识别的准确率。最近 5-10 年间，随着深度学习的快速发展，算力的快速增长，数据量的急速扩张，深度学习开始大规模应用于语音识别领域并取得突破性进展，深度模型已经可以在干净标准的独白类音频上达到 5% 以下的错词率。此外，端到端的模型可以轻松的将各种语言揉合在一个模型中，不需要做额外的音素词典的准备，这将大大推动业界技术研究与应用落地的进度。

04

博客 | 论文解读：对端到端语音识别网络的两种全新探索

雷锋网 AI 科技评论按：语音识别技术历史悠久，早在上世纪 50 年代，贝尔研究所就研究出了可以识别十个英文数字的简单系统。从上世纪 70 年代起，传统的基于统计的 HMM 声学模型，N 元组语言模型的发明，已经使得语音识别技术可以在小规模词汇量上使用。在新世纪伊始，GMM-HMM 模型的序列鉴别性训练方法的提出又进一步提升了语音识别的准确率。最近 5-10 年间，随着深度学习的快速发展，算力的快速增长，数据量的急速扩张，深度学习开始大规模应用于语音识别领域并取得突破性进展，深度模型已经可以在干净标准的独白类音频上达到 5% 以下的错词率。此外，端到端的模型可以轻松的将各种语言揉合在一个模型中，不需要做额外的音素词典的准备，这将大大推动业界技术研究与应用落地的进度。

03

全离线，无延迟！谷歌手机更新语音识别系统，模型大小仅80M

识别延迟一直是设备端语音识别技术需要解决的重大问题，谷歌手机今天更新了手机端的语音识别技术——Gboard，重磅推出了一款端到端、全神经、基于设备的语音识别器，支持Gboard中的语音输入。通过谷歌最新的（RNN-T）技术训练的模型，该模型精度超过CTC，并且只有80M，可直接在设备上运行。

03

教程 | 如何使用TensorFlow构建、训练和改进循环神经网络

选自SVDS 作者：Matthew Rubashkin、Matt Mollison 机器之心编译参与：李泽南、吴攀来自 Silicon Valley Data Science 公司的研究人员为我们展示了循环神经网络（RNN）探索时间序列和开发语音识别模型的能力。目前有很多人工智能应用都依赖于循环深度神经网络，在谷歌（语音搜索）、百度（DeepSpeech）和亚马逊的产品中都能看到RNN的身影。然而，当我们开始着手构建自己的 RNN 模型时，我们发现在使用神经网络处理语音识别这样的任务上，几乎没有简单直

09

[深度学习概念]·深度学习进行语音识别-简单语音处理

吴恩达教授曾经预言过,当语音识别的准确度从95%提升到99%的时候，它将成为与电脑交互的首要方式。

02

机器学习原来如此有趣：如何用深度学习进行语音识别

语音识别正在「入侵」我们的生活。我们的手机、游戏主机和智能手表都内置了语音识别。他甚至在自动化我们的房子。只需50美元，你就可以买到一个Amazon Echo Dot，这是一个可以让你订外卖、收听天气

动态 | 语音识别如何突破延迟瓶颈？谷歌推出了基于 RNN-T 的全神经元设备端语音识别器

AI 科技评论按：在近二十年来，尤其是引入深度学习以后，语音识别取得了一系列重大突破，并一步步走向市场并搭载到消费级产品中。然而在用户体验上，「迟钝」可以算得上这些产品最大的槽点之一，这也意味着语音识别的延迟问题已经成为了该领域研究亟待解决的难点。日前，谷歌推出了基于循环神经网络变换器（RNN-T）的全神经元设备端语音识别器，能够很好地解决目前语音识别所存在的延迟难题。谷歌也将这项成果发布在了官方博客上，AI 科技评论进行编译如下。

02

Google又逆天：语音输入离线实时输出文字，仅占80MB！然而……

这次出手的，又是谷歌 AI 团队。刚刚，他们为旗下的一款手机输入法 Gboard （不要跟谷歌拼音输入法搞混了啊~）上线了新功能：离线语音识别。目前这一新功能，只能在其自家的产品 Pixel 系列手机上使用。

02

百度ICML论文：如何用一种算法同时解决中英两种语言的语音识别需求

论文作者：Dario Amodei , Rishita Anubhai , Eric Battenberg , Carl Case , Jared Casper , Bryan Catanzaro , JingDong Chen , Mike Chrzanowski Baidu USA, Inc., Adam Coates , Greg Diamos Baidu USA, Inc., Erich Elsen Baidu USA, Inc., Jesse Engel , Linxi Fan , Christo

语音识别揭秘，它与人工智能是什么关系？

自1962年IBM推出第一台语音识别机器以来，语音识别科学已经走了很长一段路。这已经不是什么秘密了。

01

手机输入法不好用？谷歌要用AI让你打字更快

陈桦编译整理量子位报道 | 公众号 QbitAI 现在，大部分人的日常生活，都离不开手机上的虚拟键盘，而这其中的大部分人都会觉得虚拟键盘不好用。数据显示，相对于实体键盘，用户用虚拟键盘打字的速度要慢35%。于是，谷歌又看到了人工智能技术的用武之地。他们优化了Android系统的Gboard输入法，目标是建立智能化机制，无论你选择什么语言都能带来更快的输入速度，并提供拼写建议和错误更正功能。 Google Research官方博客昨天发布文章，介绍了他们对Gboard的优化，量子位编译如下：我们注意

07

All In One！Meta发布SeamlessM4T，支持100种语言，35种语音、开源、在线体验！

多语言识别翻译的研究一直都是学术界研究的重点。目前全球有几千种语言，在全球化背景下不同语言人群之间的交流越来越密切，然而学习一门外语的成本是非常大的。前两年的研究主要集中在一对一、一对多的研究，然而当面对这么多的语言时，既需要「考虑模型准确率，还需要考虑语种的识别」。最近，随着人工智能大型自然语言模型的发展，利用统一模型实现多语种识别翻译来实现不同语种之间交流逐渐的变成了可能。

02

谷歌输入法背后的机器智能

很多人每天花费大量时间使用移动设备键盘：撰写电子邮件，发短信，参与社交媒体等。然而，移动键盘仍然在处理速度方面处于劣势。用户平均在移动设备上的打字速度比在物理键盘上慢35％。为了改变这一点，最近谷歌团队为Gboard for Android提供了许多改进，致力于创建一个智能机制的键盘，能够为用户以任何选择的语言提供建议和纠正错误，从而实现更快更高质量的输入。事实上，移动键盘将触摸输入转换为文本的方式类似于语音识别系统将语音输入转换为文本的方式，雷锋网了解到，该团队将利用语音识别的经验来实现触摸输入

07

学界 | 谷歌输入法背后的机器智能：思你所思，想你所想！

很多人每天花费大量时间使用移动设备键盘：撰写电子邮件，发短信，参与社交媒体等。然而，移动键盘仍然在处理速度方面处于劣势。用户平均在移动设备上的打字速度比在物理键盘上慢35％。为了改变这一点，最近谷歌团队为Gboard for Android提供了许多改进，致力于创建一个智能机制的键盘，能够为用户以任何选择的语言提供建议和纠正错误，从而实现更快更高质量的输入。事实上，移动键盘将触摸输入转换为文本的方式类似于语音识别系统将语音输入转换为文本的方式，雷锋网了解到，该团队将利用语音识别的经验来实现触摸输入

07

神经接口技术将想法直接转换为打字输出

本文是Pavithra Rajeswaran和 Amy L. Orsborn两人在Nature上发表的一篇观点评论，主要关于Willett等人在意念手写字上的研究。编译作者：邹思。

01

图神经网络版本的PyTorch来了，Facebook开源GTN框架，还可对图自动微分

图神经网络「GNN」是近年来最火爆的研究领域之一，常用于社交网络和知识图谱的构建，由于具有良好的可解释性，现在已经广泛使用在各个场景当中。

03

力荐 | 吴恩达《序列模型》精炼笔记（1）-- 循环神经网络（RNN）

序列模型（Recurrent Neural Networks）是Andrw Ng深度学习专项课程中的第五门课，也是最后一门课。这门课主要介绍循环神经网络（RNN）的基本概念、模型和具体应用。该门课共有3周课时，所以我将分成3次笔记来总结，这是第一节笔记。

02

22. 对比最优误差率

在我们的猫咪识别实例中，这个“想法”的错误率指的是——最优分类器的错误率接近0%，就像一个人可以很轻松的识别它。而且随时可以进行识别，我们希望机器也可以做到这点。还有一些问题是比较困难的。例如：假设你建立了一个语音识别系统，并且发现有14%的音频杂音非常多，即使一个人也很难听出音频中在说什么。在这种情况下，这个“最优的”语音识别系统的误差大约为14%。假设在这个语音识别系统中，你的算法效果如下： • 在训练集上的误差 = 15% • 在开发集上的误差 = 30% 在训练集上的效果接君最优误差14%。因此，在偏差和训练集上面进行改进是不会取得太大的效果的。然而这个算法并不适用于开发集；因此，由于方差的原因，在这里有很大的改进空间。这个例子于上一章节的第三个例子类似，它有在训练集上有15%的误差，在开发集上有30%的误差。如果最优分类器的误差接近于0%的话，则训练集上有15%的误差改进空间非常大，减少偏差是非常有效的。但是如果最优错误率约为14%，那么近乎相同的训练集的数据告诉我们我们分类器是很难提高的。对于最优错误率远大于0%的问题，这里有一个关于算法错误的更详细的分类。我们继续使用上面的语音识别示例，可以按如下方式分解在开发集上的30%误差。（在测试集上也可以类似进行错误分析） • 最优误差率 (“不可避免的偏差”): 14%. 假设我们认为，即使世界上最好的语言我们仍会有14%的误差，我们可以把这个看作为不可避免的部分。 • 可避免的偏差 : 1%.由训练集上的误差于最优误差的差值计算得到。3 • 方差 : 15%.训练集与开发集上误差的区别。由我们之前的定义，我们定义这两者关系如下：4 偏差 = 最优误差（不可避免的偏差） + 可避免的偏差这个可避免的偏差反映了你算法的在训练集上与最优分类器直接的差别。方差的定义与之前的定义一样，从理论上讲，我们可以通过对大量训练集的训练，将方差减少到接近0%的水平。因此，如果数据量足够大，所有的方差都是可避免的，反之不可避免。

AI 看唇语，在嘈杂场景的语音识别准确率高达75%

事实上，研究表明视觉线索在语言学习中起着关键的作用。相比之下，人工智能语言识别系统主要是建立在音频上。而且需要大量数据来训练，通常需要数万小时的记录。

03

AI 看唇语，在嘈杂场景的语音识别准确率高达75%

编译 | 禾木木出品 | AI科技大本营（ID:rgznai100）人们通过聆听和观察说话者的嘴唇动作来感知言语。那么，AI 也可以吗？事实上，研究表明视觉线索在语言学习中起着关键的作用。相比之下，人工智能语言识别系统主要是建立在音频上。而且需要大量数据来训练，通常需要数万小时的记录。为了研究视觉效果，尤其是嘴部动作的镜头，是否可以提高语音识别系统的性能。Meta 的研究人员开发了 Audio-Visual Hidden Unit BERT (AV-HuBERT)，这是一个通过观看学习和听人们说

01

22. 对比最优误差率

在我们的猫咪识别实例中，这个“想法”的错误率指的是——最优分类器的错误率接近0%，就像一个人可以很轻松的识别它。而且随时可以进行识别，我们希望机器也可以做到这点。还有一些问题是比较困难的。例如：假设你建立了一个语音识别系统，并且发现有14%的音频杂音非常多，即使一个人也很难听出音频中在说什么。在这种情况下，这个“最优的”语音识别系统的误差大约为14%。假设在这个语音识别系统中，你的算法效果如下： • 在训练集上的误差 = 15% • 在开发集上的误差 = 30% 在训练集上的效果接君最优误差1

01

[DeeplearningAI笔记]序列模型3.9-3.10语音辨识/CTC损失函数/触发字检测

吴恩达老师课程原地址: https://mooc.study.163.com/smartSpec/detail/1001319001.htm

01

【资源】用深度学习解决自然语言处理中的7大问题，文本分类、语言建模、机器翻译等

摘要：本文讲的是用深度学习解决自然语言处理中的7大问题，文本分类、语言建模、机器翻译等，自然语言处理领域正在从统计学方法转向神经网络方法。在自然语言中，仍然存在许多具有挑战性的问题。但是，深度学习方

05

音位：不仅仅是词汇获取

语言是一个两层的层级系统，在语音系统向语义系统跨越的过程中，音位作为语言中能够区别意义的最小的语音单位一直都受到语言学家和心理语言学研究者的关注，其在词汇存取过程中的作用一直是众多研究者争论的焦点。传统语言学理论中将音位视为词汇存取的关键单位，但这一观点不断受到其他语言学家与心理学家的挑战。作者对以往研究中存在的两种主要观点进行了分析，并分别针对性的反驳。

01

谷歌手机输入法可以离线语音识别了！模型精度远超经典CTC

2012 年，在深度学习技术的帮助下，语音识别研究有了极大进展，很多产品开始采用这项技术，如谷歌的语音搜索。这也开启了该领域的变革：之后每一年都会出现进一步提高语音识别质量的新架构，如深度神经网络、循环神经网络、长短期记忆网络、卷积神经网络等等。然而，延迟仍然是重中之重：自动语音助手对请求能够提供快速及时的反应，会让人感觉更有帮助。

03

谷歌手机输入法可以离线语音识别了！模型精度远超经典CTC

2012 年，在深度学习技术的帮助下，语音识别研究有了极大进展，很多产品开始采用这项技术，如谷歌的语音搜索。这也开启了该领域的变革：之后每一年都会出现进一步提高语音识别质量的新架构，如深度神经网络、循环神经网络、长短期记忆网络、卷积神经网络等等。然而，延迟仍然是重中之重：自动语音助手对请求能够提供快速及时的反应，会让人感觉更有帮助。

03

语音识别训练时间由7天降至11.5小时，IBM提出分布式深度学习技术

可靠、稳健、可泛化的语音识别是机器学习领域一个持续的挑战。通常，训练自然语言理解模型需要包含数千小时语音和数百万（甚至数十亿）单词文本的语料库，以及能够在合理时间内处理这些数据的强大硬件。

03

“意念打字”速度接近常人手机聊天，专家：这比马斯克的“猴子玩游戏”难多了 | Nature封面

5月12日，《Nature》发布最新一期封面研究：斯坦福大学的研究人员开发了一项新的脑机接口技术，能够使瘫痪患者直接将脑海里的“想法”转换为电脑屏幕上的手写文字，“打字”速度突飞猛进！

02

深度学习在语音识别上的应用

我今天演讲主要分四个部分，第一个是分享语音识别概述，然后是深度神经网络的基础；接下来就是深度学习在语音识别声学模型上面的应用，最后要分享的是语音识别难点以及未来的发展方向。

04

Meta翻译大模型可模仿语气语速！AI再也不“莫得感情”了｜GitHub 9k标星

Meta此次发布的是一个翻译模型系列：Seamless Communication（无缝交流）。

01

人工智能，应该如何测试？（五）ASR 效果测试介绍

ASR 是自动语音识别（Automatic Speech Recognition）的缩写，是一种将人的语音转换为文本的技术。这项技术涉及声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等多个学科。ASR 系统的性能受到识别词汇表的大小和语音的复杂性、语音信号的质量、单个说话人或多个说话人以及硬件等因素的影响。

01

识别率，你们是怎么理解计算的呢？

当我们测试语音识别相关的系统，衡量性能是非常重要的，一般语音识别准确性最常用的度量标准是字错误率，比如录音笔中的转写功能或者输入法语音输入等等，其实就是语音识别提供的服务，因此也需要测试相关的指标。

02

【资源】用深度学习解决自然语言处理中的7大问题，文本分类、语言建模、机器翻译等

【新智元导读】自然语言处理领域正在从统计学方法转向神经网络方法。在自然语言中，仍然存在许多具有挑战性的问题。但是，深度学习方法在某些特定的语言问题上取得了state-of-the-art的结果。这篇文章将介绍深度学习方法正在取得进展的7类自然语言处理任务。自然语言处理领域正在从统计学方法转向神经网络方法。在自然语言中，仍然存在许多具有挑战性的问题。但是，深度学习方法在某些特定的语言问题上取得了state-of-the-art的结果。不仅仅是在一些benchmark问题上深度学习模型取得的表现，这是最有趣的

多模态大模型不够灵活，谷歌DeepMind创新架构Zipper：分开训练再「压缩」

最近的一系列研究表明，纯解码器生成模型可以通过训练利用下一个 token 预测生成有用的表征，从而成功地生成多种模态（如音频、图像或状态 - 动作序列）的新序列，从文本、蛋白质、音频到图像，甚至是状态序列。

01

07. OCR学习路径之基于Attention机制的文本识别

对于单文本行的图片进行识别，另一种常用的网络模型为编码-解码模型（Encoder-Decoder），并加入了注意力模型（Attention model）来帮助特征对齐，故简称EDA。

03

最适合人工智能的编程语言：JAVA人工智能程序编程

可用于开发人工智能项目的程序编程语言列表，包括Python，POP-11，C ++，MATLAB，Java，Lisp和Wolfram语言。在本文中，你会了解Java程序编程如何与人工智能配合使用。

09

【玩转腾讯云】只需三分钟，再也不用听60秒长语音

现实生活中，越来越多的地方需要使用到语音识别，微信里客户的长条语音，游戏里更方便快速的交流，都是语音识别的重要场景。现在为大家强力推荐腾讯云语音识别，一款为企业和开发者提供极具性价比的语音识别服务。腾讯云语音识别服务经微信、腾讯视频、王者荣耀、和平精英等大量内部业务验证；同时也在线上线下大量互联网、金融、教育等领域的外部客户业务场景下成功落地。同时日服务亿级用户，具有海量数据支撑、算法业界领先、支持语种丰富、服务性能稳定、抗噪音能力强、识别准确率高等优势。

产品动态 | 腾讯云AI 9月产品更新

9月，知文NLP、人脸融合、语音识别等3款产品推出全新功能，文字识别推出新解决方案。腾讯云AI团队联合腾讯优图、AILab、微信智聆、微信智言等实验室，帮助合作伙伴和客户高效打造针对性的解决方案，助力各行各业的数字化和智能化转型。

05

Meta 开源首个 AI 语音翻译系统，闽南话和英语可以直接语音互译！

作者 | 李梅编辑 | 陈彩娴机器翻译是现今人类消除语言障碍、重建巴别塔的新工具。然而，在世界现存的 7000 多种已知语言中，许多低资源语言还未得到足够的关注，尤其是有近一半的语言没有标准的书面系统，这是构建机器翻译工具的一大障碍，所以目前 AI 翻译主要集中在书面语言上。在利用 AI 推动自然语言翻译这件事上，Meta 一直致力于“No Language Left Behind”（没有一种语言被落下）的目标。比如汉语方言之一闽南话，现在也有了专属的机器翻译系统，讲闽南话的人可以与讲英语的人进行无

03

意念打字登Nature封面！每分钟写90个字符，准确率超99%，网友：我打的都比它慢

他所需要做的，只是在脑中将字母“手写”出来，然后系统就会自动识别生成字母，一分钟可写90个字符。

02

循环神经网络综述-语音识别与自然语言处理的利器

循环神经网络是一种具有记忆功能的神经网络，适合序列数据的建模。它在语音识别、自然语言处理等领域取得了成功。是除卷积神经网络之外深度学习中最常用的一种网络结构。在本文中，SIGAI将和大家一起回顾循环神经网络的发展历程与在各个领域的应用。

02

人类将可能操控AI？神经网络语言处理工作原理被破解

作者：刘光明【新智元导读】近期，来自麻省理工学院计算机科学人工智能实验室（CSAIL）和卡塔尔计算研究所的研究人员已经通过新的解释技术，来分析神经网络做机器翻译和语音识别的训练过程。神经网络通过分析大量的训练数据来学习并执行任务，这是近期人工智能领域最令人印象深刻的进展，包括语音识别和自动翻译系统。然而，在训练过程中，神经网络以甚至其创造者都无法解释的方式来不断调整其内部设置。计算机科学最近的许多工作都聚焦于千方百计的弄清楚神经网络的工作原理。在最近的几篇论文，来自麻省理工学院计算机科学人工智能实

04

使用ffmpeg给视频自动添加字幕

今天看到一篇“一个视频自动加字幕的小工具，如何做到月入2W”的博文（突字幕，有兴趣的同学可以度娘，作者的动手能力确实很强！），考虑实现这个小工具就能做到这个收入，还是挺让人羡慕的！在当前人工智能、机器学习的热度不减的当下，依托成熟三方服务或者开源实现，实现一个类似的应用理论上是不难的，而核心的技术难点也显而易见，主要在语音识别，以及机器翻译的准确性上，考虑到商用，所以感觉最大可能是使用了三方成熟的API！

02

Human Language Processing——HMM

这篇文章主要介绍目前一些语音识别技术与HMM有什么关系，然后你就会发现，很多技术其实有借用HMM的思想

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭