提高语音识别率_提高ocr识别率_语音识别率 - 腾讯云开发者社区

voip、voice-recognition、ivr、vxml

我最近有机会在Plum Voice VXML上工作。我正在为一家食品订购公司写一份IVR，其中要求呼叫者的姓名和地址保存在数据库中，并在稍后交付订单。对于语音识别，我们必须提供语法，但我如何才能编写一个语法来识别数千个存在的名称。

浏览 8提问于2017-05-16得票数 0

1回答

如何在Azure中进行语音识别并立即完成

azure、speech-recognition、microsoft-cognitive、voice-recognition

我使用this example from Azure -连续识别。但是，我需要等待很长时间才能完成识别，例如1小时的语音文件。有没有可能让Azure立即完成识别？目前，识别率约为1:1，即识别1小时的文件需要1小时。我希望这件事能在1:60完成。

浏览 126提问于2021-11-04得票数 1

1回答

如何在Vuforia中修改摄像头视图？

android、camera、augmented-reality、vuforia

我正在做一个项目，使用Vuforia AR SDK (用于安卓)，使用前置摄像头并进行ImageTarget识别。但问题是，当我把书压在桌面上时，Vuforia无法跟踪它(参见)。我知道在Android中我可以使用像android.graphic.Camera.rotateX一样的方法来修改视图；我可以在Vuforia中这样做吗？或者，有没有其他方法可以让平板书在桌面上时更好，从而加快识别速度？

浏览 2提问于2017-03-07得票数 0

1回答

如果我们使用集成的Windows7语音识别功能，我们可以看到，它可以很好地猜测我们口述的内容。而且它不仅适用于有限的命令集，而且适用于任何口语。另一方面，当我尝试针对Microsoft.Speech名称空间中的类进行编程时(我安装的是Microsoft Speech Server Runtime10.2)，我发现自己总是需要定义一个有限的语法来使用。有没有一种方法可以只获取口述的音频文件并尝试将其解析为文本，而无需在Microsoft.Speech中指定自定义语法？

浏览 2提问于2011-09-08得票数 2

回答已采纳

2回答

MCI_RECORD参数的改变是否影响SAPI语音识别？

sapi

Intially I have specified MCI_WAVE_SET_PARMS at the time of recording as follows: MCI_WAVE_SET_PARMS mciSetParms; mciSetParms.wFormatTag = WAVE_FORMAT_PCM; mciSetParms.wBitsPerSample = 16; mciSetParms.nChannels = 2; mciSetParms.nSamplesPerSec = 11050; Now if I change it to MCI_WAVE_SET_PARMS mci

浏览 0提问于2010-01-20得票数 1

1回答

Wit.ai不理解实体，而是on_off？

wit.ai

我已经定义了一个实体"team“，值为"FC巴塞罗那”，别名为“巴塞罗那”。该应用程序的语言设置为德语。你知道为什么“巴塞罗那”被认为是一个wit/on_off实体吗？实际上，对于我输入的每一句话(不管是什么)，wit/on_off实体都被识别为某个随机单词作为值。奇怪的是，我在那里有两个wit/on_off实体。这是我从另一个应用程序的导出中导入的应用程序。我可以删除一个on_off吗？但是是哪一个呢？

浏览 1提问于2016-08-02得票数 0

1回答

训练语音识别软件

speech-recognition

有点左倾，但我正在尝试训练一个语音识别程序，指南建议我试着说得清晰而自然。然而，我注意到，当一个人自然地说话时，每个单词都倾向于漂移到下一个单词中，导致单词之间的边界相当模糊。一方面，以一种更生硬的方式说话似乎有助于计算机识别音素，但另一方面，它往往会使计算机不太可能理解更自然的语音。任何有该领域知识的人都可以建议这两种方法中哪一种更有效？谢谢

浏览 1提问于2010-05-08得票数 0

回答已采纳

1回答

如何在Google Speech API中提高long_running_recognize的置信度

python、google-speech-api

我目前正在使用Google speech API (Python)开发一个语音识别服务。在现在用作样本的韩语听力评估mp3文件中，除了配音演员的声音之外，没有其他声音。我目前正在使用long_running_recognize转换后，我的mp3文件到FLAC和上传到谷歌存储，但该文件的准确性只有60%的2分钟。我想我使用了最直观的数据作为样本，我想知道文件的长度是否会影响识别率，以及是否可以提高性能。

浏览 3提问于2017-09-23得票数 0

2回答

最新最好的人脸识别算法是什么？

algorithm、matlab、computer-vision

我正在做我的最后一个项目，其中包括人脸识别，并试图在matlab上实现它。有没有人能帮我弄到一些关于每种算法的资源，以及它们的优缺点。另外，如果我得到了他们的matlab实现，我会很高兴的。我尝试过PCA(特征脸)，但在一些参考资料中，它不再是一个好的算法。所以我在寻找另一种选择。

浏览 2提问于2013-03-26得票数 5

回答已采纳

2回答

从连续麦克风流中实时识别非语音、非音乐声音

java、python、real-time、pattern-recognition、audio-fingerprinting

我希望记录的事件对应于一个特定的声音，如汽车门砰，或可能是烤面包机喷射吐司。该系统需要比“噪音探测器”更复杂；它需要能够区分特定的声音和其他的响声。标识不一定是零延迟，但是处理器需要保持来自始终打开的麦克风的源源不断的数据流。这个任务是否与语音识别有很大的不同，或者我是否可以使用语音识别库/工具包来识别这些非语音声音？考虑到我只需要匹配一个声音(而不是一个声音库之间的匹配)，我可以做什么特殊的优化吗？表示匹配的过滤器是合适的，但我对细节不太清楚。我不相信一个简单的互相关之间的音频波形数据之间的一个样本的目标声音和麦克风流将是有效的，因为目标声音的变化。我的问题也类似

浏览 4提问于2011-11-27得票数 8

0回答

数学作业批改中识别率问题,请问是否是最终版？

数学作业批改

1.请问是图片越大，越清晰。识别率越高吗？ 2.如果有干扰，算式横向排列好像收到干扰率挺高的。还有手写的是不是会降低识别率？ math2.jpg math.jpg

浏览 234提问于2019-08-13

2回答

使用附加上下文改进Android语音识别

android、speech-recognition、speech-to-text

据我所知，Android使用google语音识别服务进行语音到文本。我已经学习了API，我发现它非常简单，只是将声音转换成文字数组。是否有任何方法来提高识别，我的意思是，如果我知道上下文，我可以发送一些参数到服务，以提高识别？或者，是否有任何其他语音识别服务可用于此目的？提前谢谢。

浏览 2提问于2015-03-19得票数 4

回答已采纳

1回答

如何调整OpenEars错误识别

ios、openears

我使用了app.just的OpenEars来识别字母表中的"a“到"z”。但它在识别字母表上的识别率比识别单词差。那么，我如何使用我的声音模型来提高OpenEars的识别率呢？以及如何使用OpenEars来识别一些特殊的声音。例如。我给OpenEars一个狗叫声，我想让它还给我“狗”

浏览 3提问于2012-11-29得票数 2

回答已采纳

1回答

如何添加语法/提示到微软-认知服务-语音sdk？

javascript、speech-recognition、azure-cognitive-services

我有微软的Javascript库的基本设置-认知服务-speech。我使用浏览器实现，而不是节点实现。总的来说，它工作良好，但也会出现一些问题，其中的转录是有点差。背景我正在做的项目是一个web应用程序，它使用语音识别。用户与应用程序进行业务代码的交互，如A6、B12、. 我在任何可能的情况下都使用webkitSpeechRecognition，在任何其他情况下，我都提供了微软认知服务-speech的后盾，大多数情况下，这是非常好的。问题商业代码并不总是正确地转录在微软-认知服务-语音-sdk上。webkitSpeechRecognition在这方面做得更好。示例(法文)：用户

浏览 10提问于2020-07-07得票数 0

1回答

训练声学模型需要多长时间？

cmusphinx

我想在中国为14岁以下的儿童建立一个英语声学模型，使用cmusphinx，词汇量约800个单词。我做了一些研究，一些商业语音引擎需要花费数千个小时的语音记录来训练他们的声学模型：(细微差别和谷歌花费了2000+和1000+时间)。因为我需要达到大约95%的准确率，我需要多少个小时的声音语料库？语音语料库越长，其准确率就越高吗？

浏览 3提问于2013-10-30得票数 0

回答已采纳

2回答

用于语音识别系统的免费API

java、speech-recognition、speech-to-text

我正在寻找一个免费的语音识别应用程序接口使用在我的应用程序中，给出最好的results.On谷歌我发现很少，包括视窗语音识别Macros.But我的应用程序的任务是更好地执行比视窗语音识别System.So你作为一个程序员，意识到一个非常好的语音识别系统。我在SO上发现了类似的问题，但它们处理的场景不同。

浏览 3提问于2013-08-14得票数 1

4回答

语音控制API -特定短语的高精度

android、iphone、speech-recognition、siri

我有几个声音控制应用程序的想法。不幸的是，根据我从Siri和Google中所看到的，这项技术似乎还没有出现。即使在一个非常安静的环境中，准确性也很差，所以在你的手机中输入它通常会让你觉得更容易。使任务变得更简单的一种方法是将系统限制为几个命令，特别选择的命令听起来非常不同，而不是将声音传递给服务并只返回文本。所以我的要求是：当被要求使用一组有限的命令时，精度非常高。它更适合在移动设备上工作，但是只有PC库可能也很有用。离线也更好，但没有必要。不需要开源？？许可是可以的。这样的API或软件是否存在？

浏览 6提问于2012-09-24得票数 4

1回答

我现在需要的准确性OpenEars，语音库的IPhone使用CMUSphinx？

iphone、ipad、speech-to-text

您好，任何人谁使用过这个OpenEars，语音库的IPhone使用CMUSphinx，可以告诉我，它有多大的帮助语音到文本转换的iOS和多高的准确性我需要达到80%的语音应该转换成文本是这个库可以为我做这件事需要帮助提前谢谢。

浏览 0提问于2010-11-08得票数 2

回答已采纳

2回答

vuforia的建筑识别？

android、unity3d、vuforia

通常我可以使用图像定位或云识别来制作应用程序，但现在我需要使用物理建筑作为目标，所以我的问题是，有人知道如何通过vuforia + unity或vuforia android识别建筑吗？我在youtube上发现了一个应用程序，只是想知道它应该如何创建。

浏览 4提问于2013-10-06得票数 5

1回答

哪个软件可以转换语音共振峰？

linux、python、audio、voice

Melodyne做的正是我所需要的，但它只是UI。我在寻找一种通过编程来转换语音尖峰的方法。弗姆佩格，索克斯，普拉特？我该怎么做？在语音科学和语音学中，共振峰 (语音术语)是由人类声道的声学共振产生的频谱整形。你在找什么样的申请？命令行或python包。您希望应用程序在哪个操作系统上运行？Linux 你有什么预算?0 应用程序必须具有哪些特性？改变语音峰的能力。

浏览 0提问于2020-04-03得票数 0

回答已采纳

1回答

Twilio python包中的twilio <Gather>语音识别支持

python、twilio

在Twilio需要帮助。Twilio 动词支持input="speech"，它可以识别站点中提到的语音。Twilio python软件包支持这种语音识别吗？找不到任何有关这方面的帮助文档。

浏览 2提问于2017-05-31得票数 1

2回答

Android编程:循环语音识别

java、android、audio-recording、voice-recognition、mediarecorder

我正在寻找一个定制的Android应用程序来帮助一个身体残疾者。我需要很大程度上依赖于语音识别。这样做的目的是：这个应用程序(通过语音识别)接受他的演讲。这个应用程序解析他的演讲，并执行他的命令(“电子邮件爸爸”，“短信弗雷德”，“现在几点了？”等等，还有其他我将添加的东西来控制他的电视，灯光等等) 执行后，应用程序等待他的下一个命令(循环回#1)。我有#1和#2工作正常，但我无法找到一个好的方法#3。我不能让谷歌的语音识别视图无限期地运行，因为它可能需要几个小时后，下一个命令。但“触发”必须基于声音/声音。必须是完全免费的。理想情况下，这个应用程序只会监听一个声音

浏览 6提问于2013-01-21得票数 3

1回答

手动激活所有音频播放

android、audio、speech-to-text、google-text-to-speech

我开发了一个应用程序，它使用文本到语音和语音到文本的功能。在不同的设备上进行测试后，我发现有些设备的音频播放偏好没有被激活，即使主要的声音级别已经打开，人工语音引擎也没有被大声播放。我进去打开所有的音频级别，问题就解决了。所以，我想知道是否可以在启动我的应用程序时手动激活设备上的所有声音级别。谢谢!

浏览 3提问于2014-01-03得票数 0

回答已采纳

1回答

识别语音与已知文本比较的最佳方法

ios、speech-recognition、speech-to-text、sfspeechrecognizer、keyword-spotting

给出了我期望用户阅读的已知手稿(文本)(或多或少地准确)，在手稿中识别用户进度的最佳方法是什么？当我在iOS上寻找一个特定的解决方案时，我也对一个更一般的答案感兴趣。 iOS提供了一个名为的语音识别框架，我可以使用它来识别任何语音。我目前的方法是使用这个框架的字符串结果将它们与手稿相匹配。然而，在我看来，这似乎有相当大的开销，当我第一次给语音识别器输入预期的单词时，它将节省资源并提高精确度，以便它“知道”该听什么。例如，当手稿中的下一个单词是"fish“时，我不需要语音识别器在整个英语词典中搜索一个与录制的音频最匹配的单词--我只需要得到一个概率值--用户刚才说"fish

浏览 1提问于2018-12-26得票数 0

4回答

基于说话者的语音识别引擎

speech-recognition

我想做一个小应用，有没有人知道一个好的依赖于说话人的语音识别引擎与sdk。(不是语音到文本引擎) 谢谢, Efrat

浏览 0提问于2010-01-19得票数 0

1回答

使用google语音识别时忽略背景音乐

android、voice-recognition

我正试着制作一个闹钟Android应用程序，可以用语音识别来阻止它。为此，我使用谷歌语音识别API (+ 不断进行语音识别)。它很好，直到我同时演奏音乐。在这种情况下，语音识别的效率要低得多。这个问题是合乎逻辑的，因为音乐增加了一些噪音，使识别更加困难。但由于播放的音乐是已知的，我想知道是否可以告诉谷歌试图忽略这些额外的噪音。我知道在信号处理中存在一些滤波器来实现这一点(比如或)。因此，我的问题是：是否有可能应用带有谷歌语音识别的过滤器来忽略已知的噪声？，还是有其他语音识别库允许这样做？编辑:这不是重复，因为问题是不一样的。但是很有趣的建议。

浏览 0提问于2018-01-27得票数 4

3回答

在tesseract中添加任何培训数据文件并在IOS中使用

ios、tesseract

我能够编译英文版，这个版本已经为tesseract提供了示例，但无法添加其他语言，如ara.traineddata。我做的就像 Tesseract* tesseract = [[Tesseract alloc] initWithDataPath:@"tessdata" language:@"ara+eng"]; 它是在识别英语，但对于ara来说，它却是错误的。 Error opening data file /Users/harshthakur/Library/Application Support/iPhone Simulator/7.0/Applicat

浏览 0提问于2014-01-29得票数 3

回答已采纳

1回答

基于时间的过滤和转发

google-apps-script、google-voice

我使用谷歌语音做我的生意。我需要能够在我的秘书早上工作时将语音邮件转发给她。我可以选择只给她发送一份收到的每个语音邮件的副本，但我只想给她发送她工作时收到的语音邮件。有没有一个脚本可以让我在上午9点到下午1点之间将来自某个电子邮件地址的所有电子邮件都放入一个过滤器中，然后将转发设置为仅转发该过滤器？提前感谢

浏览 0提问于2015-06-23得票数 1

1回答

Google Speech API元数据不会影响结果或转换方法

speech-recognition、speech-to-text、google-speech-api、google-cloud-speech

我正在使用以下函数参数将语音转换为文本，但是我为元数据参数设置的额外参数对有或没有参数的转换结果都没有影响。 'useEnhanced‘=> true])

浏览 1提问于2018-06-23得票数 1

1回答

调整CMU Sphinx

performance、cmusphinx、sphinx4

我正在尝试建立一个基于CMU Sphinx的语音识别应用程序。我已经使用lmtool创建了我自己的语言模型。但是为了提高识别的准确性，我想调优Sphinx。但是，对于选择absoluteBeamWidth、relativeBeamWidth、absoulteWordBeamWidth、languageWeight这样的属性，有什么指导原则吗？我不太确定这些属性是什么意思。另外，任何可以帮助我调优sphinx的资源链接(不包括Sphinx网站上的不完整调优链接)都将不胜感激。谢谢

浏览 1提问于2012-11-13得票数 3

回答已采纳

1回答

无法识别语音错误:处理'audio.wav‘时发生错误。文件中的WAV标头无效，未找到RIFF。

node.js、azure、whatsapp、azure-cognitive-services、azure-speech

我从WhatsApp中捕获了一条语音消息，它使用节点js保存为wav文件。但是我将这个使用JavaScript语言进行语音翻译的wav文件传递给text WAV sdk，它没有显示任何内容，也将该文件尝试到演示应用程序中，在蔚蓝演示应用程序()中，我得到了“无法识别语音错误:处理'audio.wav‘时出现错误。文件中无效的WAV头，没有找到RIFF”。编码码 var encoder = new base64.Base64Encode(); var b64s = request(options).pipe(encoder);

浏览 4提问于2022-04-27得票数 1

1回答

“捐赠这个语音邮件”和“允许自动谷歌系统分析你的语音邮件”是不是多余的？

google-voice

如果我“允许自动谷歌系统分析您的语音邮件信息，以帮助提高转录质量”： 📷 在编辑成绩单时，是否建议检查“捐赠此语音信箱”选项？ 📷 我感到惊讶的是，当“允许自动谷歌系统分析语音邮件信息以帮助提高转录质量”时，默认情况下不会检查该选项，这让我怀疑这两种选项之间是否有任何区别。

浏览 0提问于2014-08-12得票数 2

回答已采纳

2回答

Android:语音识别附加字典？

android、dictionary、speech-recognition

我在Android中使用语音识别器Intent。有没有办法将你自己定制的单词或短语添加到Android的语音识别“字典”中？

浏览 2提问于2011-05-24得票数 6

回答已采纳

1回答

如何减少Sphinx4应用程序中的噪声

speech-recognition、cmusphinx、sphinx4、noise-reduction

我是sphinx4和语音识别的新手。我正在使用sphinx4创建一个语音应用程序。问题是噪声，即使没有用户的语音输入，它也会导致程序识别。即使用户没有语音输入，它也会将语音转换为文本，从而影响准确性。主要问题是如何实现降噪。这是因为即使我没有对着麦克风说话，系统也能检测到输入。所以我猜是因为噪音。我在网上查看了降低噪音的信息，但几乎没有关于同样的信息。虽然在网上有一些关于sphinx4自带的Denoise.java文件的信息。但在sphinx4-1.06中没有。另一个文件是WienerFilter.java，wienerfilter是一种用于噪声信号的滤波器。但是没有关于使用或实现该文件

浏览 5提问于2015-03-15得票数 0

2回答

语音识别从音频文件而不是麦克风中识别

c#、speech-recognition

可能重复：我有一个程序，它使用麦克风设备进行语音识别。下面是程序的一个简短片段。然而，我打算做的是不使用微果蝇装置，我打算将一个声音文件传递给这个语音识别引擎，在trun中，这个引擎应该识别来自aduio文件的文本，并重新调整结果。 SpeechRecognitionEngine speechRecognitionEngine = new SpeechRecognitionEngine(); List<Word> words = new List<Word>(); public TestSpeech() {

浏览 1提问于2012-06-26得票数 2

1回答

如何提高语音识别率？

语音识别

浏览 315提问于2019-08-28

7回答

目前国内的语音识别技术达到了什么水准？还存在哪些问题？

语音识别

现在技术越来越厉害了，前几年还感觉语音打字特别不靠谱，各种语音助手也相当蠢萌，想问下现在国内语音识别发展到什么水平了？实时且准确的将语音转化成相对应的文本已经达到了什么样的水准？主要还存在哪些方面的问题？

浏览 2226提问于2018-08-06

3回答

关于OCR 运单识别方案疑问？

文字识别

想利用OCR中的运单识别方案运用在教育层面，如果图片并非运单样式，而只是普通纸张的手写图片是否可识别，包括中英文、数字、符号。

浏览 475提问于2018-03-01

1回答

腾讯云的人脸识别和阿里云的人脸识别准备率哪个更强？

人脸识别

如题

浏览 820提问于2019-08-23

2回答

基于Visual Basic 6的语音识别

vb6

有一种方法可以在Visual Basic 6项目中集成语音识别吗？

浏览 2提问于2010-05-22得票数 1

回答已采纳

3回答

提高识别率的图像预处理步骤

android、ocr、tesseract

我正在为我的项目使用TessBaseAPI制作一个简单的OCR Android应用程序。我已经做了一些图像预处理步骤，比如二值化和图像增强。但他们的结果是50%到60%。如何提高识别率？我包含了两个示例图像。

浏览 8提问于2012-08-17得票数 3

回答已采纳

1回答

如何减少pocketshpinx中的捕获语音时间

speech-recognition、cmusphinx

作为标题，我正在开发一个在嵌入式设备上使用pocketshpinx的语音识别系统。我已经在我的嵌入式device.But上安装了pocketshpinx，捕获语音的时间非常慢，识别结果是bad.During应用程序的运行，获取语音时间需要花费大约5000 As的compute_frame_pow.Is ?如何提高计算速度？

浏览 2提问于2011-11-28得票数 0

2回答

Windows语音识别软件，以音频文件为输入，输出文本文件

windows、audio、speech-recognition

我对用于Windows的语音识别软件感兴趣，它以一种标准格式(MP3、WAV、OGG等)获取播客的音频文件，并将语音的转录作为文本文件输出。其动机是帮助为官方wiki录制播客。我希望它能够教它，提高语音识别，或学习新单词。此外，它应该能够处理多人交谈，偶尔重叠的讲话，偶尔的音乐，或非说话的声音。我只需要这个软件来处理英语。

浏览 0提问于2014-04-14得票数 5

2回答

可以支持自定义的图片识别吗，不是身份证、名片、车牌号之类的？

官方文档

请描述您的问题 [附加信息]

浏览 163提问于2018-03-30

1回答

如何在c#语音应用中实现语音识别训练

c#、speech-recognition

我想在我的语音应用程序中添加语音识别训练，我尝试了很多次，但没有找到任何解决方案。 string ex = System.IO.Path.Combine("C:\\windows\\sysnative", "Speech\\SpeechUX\\SpeechUX.dll, RunWizard User Training"); string mode = System.IO.Path.Combine("C:\\windows\\sysnative", "rundll32.exe"); Process.Start

浏览 2提问于2014-10-05得票数 0

1回答

Python中的Google语音识别API

speech-recognition、google-speech-api、google-speech-to-text-api

我正在使用python中的google speech to text API来使用此函数将语音转换为文本 text = r.recognize_google(audio_text, language = "en") 我的问题是，这些数据是否存储在google中？这些都是非常敏感的数据，我不希望它们存储在google云中。我在他们的文档中发现，默认情况下，语音到文本转换不会记录客户音频数据或文字记录。为了帮助语音到文本转换更好地满足您的需求，您可以选择使用数据记录程序。

浏览 34提问于2021-03-04得票数 1

回答已采纳

2回答

Google speech to text API，适用于英语以外的语言

android、api、speech-recognition、speech

除了英语之外，是否有用于语音到文本的API？我知道英语应用编程接口()，但我希望能够像Google Maps或Search那样识别我语言中的语音。它甚至可以是通用API，而不是Android API。

浏览 1提问于2011-02-12得票数 8

回答已采纳

1回答

“图像识别”功能过多

opencv、image-processing、machine-learning、scikit-learn、image-recognition

我有一个与图像识别相关的任务，任务是根据为各种产品拍摄的数千张照片来判断哪种产品是哪种产品。例如，我们为10种不同的标签产品拍摄了短视频(1分钟)。然后我们使用cv2.VideoCapture将它们转换为60* 30fps ~1800帧/产品。因此，我们有大约18K不同的图像，用于10种产品，所有产品都有完美的标签。我正在考虑将图像转换为像素，并使用标签作为结果，将所有像素作为收入，使用机器学习(神经网络)将其转变为分类问题。然而，每个图像都是1080 * 1920，这给了你200万像素，让我们来看看颜色(RGB，..etc)。有什么我应该使用的标准技术吗？我可以做边缘检测，轮廓来裁剪他

浏览 0提问于2016-09-12得票数 2

1回答

在Google语音文本中添加转录本以提高识别能力。

google-cloud-platform、speech-to-text、google-speech-api、google-cloud-speech、google-speech-to-text-api

在我们的教堂里，有几个尤克伦难民来教堂做礼拜。为了让他们不了解布道，我制作了一个应用程序，实时发送翻译到电报。我已经在本教程中实现了Google语音到文本API：。这是很好的，但识别往往不够准确。在Google中，是否可以添加带有转录的音频文件，以便能够了解说话人的输出？我们总是同一个说话者，所以如果我能让谷歌‘了解’扬声器，我认为准确性可以更高。或者有人有另外的想法如何提高准确性？我确实尝试了语音适应性增强()，但这并没有多大帮助。

浏览 10提问于2022-05-16得票数 4

1回答