音频识别文字 - 腾讯云开发者社区

、、、

使用官方提供的实时语音转文字demo，可以通过文件流的方式识别出音频文件的语音并转成文字。当音频流来源切换到前端调用麦克风实时发送数据，就无法识别出文字。request.setEngineModelType("16k_zh"); //模型类型为必传参数，否则异常 request.setVoiceFormat(1); //指定音频格式.newSpeechRecogniz

浏览 84提问于2024-04-08

1回答

同步文本和音频。有没有NLP/语音到文本库来做这件事？

、、

我想要同步语音录音与已知的文本。是否有一个语音到文本/自然语言处理库可以促进这一点？我想我会想要检测单词边界并从字典中计算候选匹配。我发现的大部分问题都与书面语言有关。我到目前为止发现的是：

浏览 1提问于2010-11-01得票数 14

回答已采纳

1回答

Google语音识别时间戳

、

我有一个音频文件，而且我有那个音频文件的准确记录。我希望能够在这个特定的文字记录中得到每个单词的时间戳。有没有人知道谷歌语音识别是否有可能做到这一点？

浏览 3提问于2020-04-25得票数 1

1回答

如何创建类似voicebase的高亮显示/照明

可以复制在线最终文本，就像这样：，照亮每个单词或短语

浏览 1提问于2016-05-25得票数 0

1回答

如何训练语音识别的lstm

、、、、

我正在尝试训练用于语音识别的lstm模型，但不知道要使用什么训练数据和目标数据。我使用的是，它包含音频文件和它们的文字记录。在这一点上，我知道目标数据将被矢量化文本文本。至于训练数据，我在考虑使用每个音频文件(或MFCC特征)中的频率和时间。如果这是解决问题的正确方法，训练数据/音频将是多个数组，我如何将这些数组输入到我的lstm模型中？我需要对它们进行矢量化吗？

浏览 1提问于2016-11-26得票数 5

回答已采纳

2回答

是否有任何方法来改变来电者的声音，使声音识别不可能？

、、

我搜索并找到了这篇文章：然而，它并没有回答我的问题。是否有任何方法改变一个人的声音，足以使手机呼叫无法识别的语音识别技术？

浏览 0提问于2019-08-29得票数 2

1回答

如何使用完全用C\C++编程语言编写的库将pcm音频转换为文本？

、、

如何使用完全用C\C++编程语言编写的库将pcm音频转换为文本？那我需要什么？

浏览 5提问于2010-01-07得票数 1

回答已采纳

1回答

DNNs是一种巨大的数据需求算法，尤其是双向LSTM算法.对于语音识别模型，对于特定的语言/口音，缺少语音语料库。然而，YouTube也是一个巨大的库。我需要使用一些脚本/软件，它可以自动下载YouTube视频(可能只有音频)和相关的字幕，然后将其分割成20秒的片段，这样就可以用作训练语音语料库。有没有任何方式可以下载来自Youtube的字幕？给出一个音频和脚本，我如何将一个音频分割成20秒的片段，并在文字记录中做同样的剪辑？

浏览 0提问于2018-12-21得票数 0

0回答

如何在成绩单中突出显示填充词(嗯，嗯，啊)？

、

目前，谷歌云语音返回的文字记录似乎会自动过滤掉这样的词(嗯，嗯，啊，喜欢，等等)。我尝试在我的音频识别呼叫中使用' phrases‘参数，它侧重于检测音频中的特定短语。

浏览 9提问于2017-11-28得票数 6

1回答

谷歌语音到文本是如何工作的？

、、、

我想知道，谷歌如何在他们的语音识别API中将语音转换为文本。它们是否存储了几乎所有的声音并在特定的频率水平上进行匹配，或者是否有不同的音频编解码算法来分析"A“、"B”、"V“、"D”、"Hello“等不同声音模式的声音。音乐有弹吉他，鼓和声音的声音，我想过滤他们在三个输出分别吉他声音，鼓音，声音分开，并进一步解码声音为文字。

浏览 3提问于2016-06-12得票数 3

回答已采纳

1回答

google-语音API转录反应被重复多次

、

我正在使用最新的python库的google (0.35.0)，我得到的结果如下，第一个转录结果的单词在第二个转录结果中被重复，等等直到结束。在先前的版本中，情况并非如此(0.34.0)源代码： encoding=enums.RecognitionConfig.AudioEncoding.FLAC, language_code='en-US',

浏览 0提问于2018-07-25得票数 0

1回答

语音识别支持什么语言？

浏览 223提问于2022-06-15

1回答

为sphinx-4制作定制的.dict文件

、、

我正在尝试使用Sphinx-4创建一个用于实时语音字母识别的Java应用程序。我只需要程序来识别一小部分单词(即英文字母表)。但是，它非常慢并且不准确(大约50倍音频时间)。我正在考虑制作我自己的自定义.dict文件，希望它运行得更快更准确。我想问一下，这是否可行？如果是这样的话，我如何制作自己的定制词典？

浏览 2提问于2015-12-25得票数 0

1回答