文章/答案/技术大牛

发布

node.js 处理语音输入

Node.js 是一个基于 Chrome V8 引擎的 JavaScript 运行时环境，它允许开发者使用 JavaScript 编写服务器端的应用程序。处理语音输入通常涉及到语音识别（Speech Recognition）技术，这可以通过集成第三方语音识别服务来实现。

基础概念

语音识别是指将人类的语音转换为文本的过程。这个过程通常包括声音信号的捕捉、预处理、特征提取、模式匹配和文本生成等步骤。

类型

自动语音识别（ASR）：将语音转换为文本。
说话人识别：识别说话人的身份。
说话人验证：验证说话人是否为特定个体。

应用场景

虚拟助手：如Siri、Alexa等。
实时字幕：在视频会议或直播中使用。
语音搜索：用户可以通过语音进行搜索操作。
无障碍技术：帮助残障人士进行交互。

遇到的问题及解决方法

问题：语音识别准确性不高

原因：可能是由于背景噪音、口音、语速过快或过慢等因素影响。 解决方法：

使用降噪技术提高语音信号质量。
训练模型以适应特定的口音和语速。
结合上下文信息提高识别准确率。

问题：实时性不足

原因：处理大量语音数据需要较长时间。 解决方法：

优化算法减少处理时间。
使用边缘计算在本地进行初步处理。
选择高性能的计算资源。

示例代码

以下是一个使用 Node.js 和 node-speech-recognition 库进行语音识别的简单示例：

const SpeechRecognition = require('node-speech-recognition');

const recognition = new SpeechRecognition();

recognition.on('result', (event) => {
  console.log('识别结果:', event.results[0][0].transcript);
});

recognition.on('error', (event) => {
  console.error('发生错误:', event.error);
});

recognition.start();

// 停止识别的命令
process.stdin.on('data', (data) => {
  if (data.toString().trim() === 'stop') {
    recognition.stop();
  }
});

在这个示例中，我们创建了一个 SpeechRecognition 实例，并监听了 result 和 error 事件。当识别到语音时，会打印出识别的文本；如果发生错误，会打印出错误信息。

语音输入导航

、、

我被要求制作一个语音输入符号到一个站点页面，通过一个人的声音获得订单，并执行命令，例如，想象有人说登陆页面，然后它探索到登陆页面。我不知道该怎么做，我需要你的帮助。

浏览 9提问于2022-12-03得票数 0

回答已采纳

1回答

语音到文字是否发生在设备上？

、、

由于模拟器没有语音输入方法，这些愚蠢的问题出现在我的脑海中。) 安卓是处理自己的设备上的语音输入(有限的计算能力为300-500MHz或1 GHz)，还是将其发送到Google，服务并获取文本？一次可以处理多长时间的语音输入而不中断？

浏览 2提问于2010-08-29得票数 1

回答已采纳

2回答

从SFSpeechRecognizer停止语音输入后处理文本

、、、

我想要处理文本，并在语音输入停止后立即执行一些操作。那么，我很好奇SFSpeechRecognizer是否有一个委托方法可以识别语音输入何时停止，这样我就可以捕获输入并进一步处理？

浏览 6提问于2018-10-17得票数 1

1回答

想要语音输入到一个TextBox，这段代码只做一次，(UWP C#)

、、、、

我试着使用下面的代码textBox1.Text = speechRecognitionResult.Text;我尝试了这个方法，但是它什么也没有提供。speechRecognizer.ContinuousRecognition

浏览 2提问于2017-05-30得票数 0

1回答

Google cloud speech api javascript/angular

、、、、

我正在做一个angular项目，其中Google cloud speech api必须用于语音输入。我查看了官方文档：。有适用于Node.js、PHP和其他服务器端语言的示例代码。

浏览 1提问于2018-07-02得票数 1

1回答

我在项目搜索栏的mrtk (混合现实工具包)中没有看到一个语音输入源脚本。

、、

目前，我只是尝试使用语音输入处理程序脚本和语音输入源脚本来更改多维数据集的颜色。我有处理程序脚本，但我在任何地方都找不到源脚本。如何获得源代码脚本？为什么我没有它？

浏览 4提问于2020-01-07得票数 3

回答已采纳

1回答

如何在Delphi6应用程序中点击Javascript中的Chrome Mic按钮，或者至少找到该按钮并获得其Windows屏幕坐标？

、、、

我想从Javascript点击Chrome麦克风按钮(语音输入控制)。我尝试了调用按钮的click()处理程序的常用方法，但什么也没有发生。下面是我尝试的HTML，第一个输入元素是Chrome语音输入控件，第二个输入元素是一个复选框，选中后，它会找到语音输入控件并调用它的click()处理程序：我还想问，是否

浏览 0提问于2012-05-19得票数 4

回答已采纳

1回答

google助手是如何与对话框交互的？

、

我正在计算的价格使用对话框，并发现价格的语音输入在对话框规模上很快是非常昂贵的，与许多用户。在发送到对话框进行处理之前，google助手是否将语音输入翻译成文本？

浏览 0提问于2018-09-11得票数 0

1回答

当用户说"send message to Tom"，不包含消息内容时，bixby会提示用户输入消息content.But当我使用语音输入和打字输入时有不同的结果，语音输入不被识别，但当我使用相同的消息内容时，它可能是recognised.So我想知道为什么相同的一句话通过语音输入和打字输入导致不同的结果？我试着测试了很多发音，这些发音都不是训练用例，但是看起来打字输入可以正确识别，但是语音输入的性能很差。

浏览 2提问于2019-07-05得票数 0

1回答

如何使用Amazon Lex获取客户的语音输入，并使用amazon connect将该信息传递到正确的路径？

、、

可能的服务产品列表超过了400个单独的选项。我需要使用Lex、Connect和Lambda来解决这个问题。(我不希望客户输入与选项或服务对应的号码。我希望他们解释他们的问题，并被路由到可以帮助他们解决特定问题的正确代理。)我想通过使用Lex、connect和lambda来进一步简化这一过程。但如果我可以避免这些

浏览 3提问于2019-08-30得票数 2

1回答

Lex不识别AMAZON.EmailAddress语音输入

、、

电子邮件地址的输入在使用"Test“或通过SMS消息输入进行测试时工作。但是对于语音命令，它很难识别，例如"tony@gmail.com“，所以我用”T or @G DOT C O M“或”"tony@gmail.com"？“来拼写它。如果我说的是"a@gmail.com“，它似乎意识到了这一点。

浏览 3提问于2020-07-01得票数 1

回答已采纳

2回答

基于HTC One M7的语音识别器

、、、

我用android内置的语音识别类编写了一个语音识别应用程序。当在使用startListening (上下文)函数获取的语音识别器对象上调用createSpeechRecognizer函数时，下面的异常将显示在我的开发人员控制台中。java.lang.SecurityException: Not allowed to bind to service Intent cmp=com.htc.android.voicedictation/.VoiceDi

浏览 3提问于2014-08-11得票数 2

回答已采纳

4回答

有没有一种方法可以直接使用SpeechRecognizer接口进行语音输入？

、、

Android Dev网站提供了一个使用内置Google speech input活动进行语音输入的示例。该活动使用麦克风显示预先配置的弹出窗口，并使用onActivityResult()传递其结果我的问题是:有没有一种方法可以直接使用SpeechRecognizer类进行语音输入，而不显示录制的活动？这将允许我为语音输入构建自己的活动。

浏览 53提问于2011-02-12得票数 23

1回答

安卓语音识别器stopListening()没有效果吗？

、

继续处理音频，并返回识别结果，就像没有调用stopListening()一样。startListening()和stopListening()都是从主线程调用的。

浏览 0提问于2016-06-22得票数 6

1回答

使用原生语音输入的React原生设置TextInput默认值

我希望我的文本输入默认使用语音输入，就像在ios中一样，它可以自动切换到使用本地语音输入来输入文本，而对于android，它可以自动切换到使用google语音输入来输入。

浏览 23提问于2019-05-02得票数 0

回答已采纳

3回答

Android语音中的关键词识别？

、、

我需要使用语音输入来插入文本。当我说话时，如何检测关键字？谢谢

浏览 10提问于2012-03-02得票数 2

回答已采纳

1回答

用于iOS词汇表外训练集的google Speech API

、、

该项目涉及语音输入，以识别许多术语，这些术语基本上是行话。Google speech API无法很好地识别这些行话的语音输入。有没有办法训练谷歌语音应用程序接口来学习这些术语，并在移动iOS应用程序中提供语音输入时轻松识别它们？

浏览 0提问于2018-06-12得票数 0

2回答

程序间的交互

、、

我正在编写一个交互式程序，在这个程序中，它从用户那里获取特定命令列表的语音输入。我在想我应该使用什么来在语音识别引擎与列表和bash程序之间进行交互(同步)。bash脚本用于根据用户的请求调用系统实用程序命令。我应该只使用C++或Bash吗？

浏览 0提问于2013-05-11得票数 0

1回答

设置中缺少Android“语音输入”选项

、

首先是Android5.1-在语言和输入设置中，我看到了“语音输入”和“语音控制”选项，语音识别工作。第二部手机是Android 6.0，我看不到“语音输入”选项： SpeechRecognizer.isRecognitionAvailable(activity)startActivityForResult(new Intent(android.provider.Settings.ACTION_VOICE_INPUT_SETTINGS), 0);

浏览 16提问于2018-07-28得票数 0

1回答