如何让引擎成功识别语音文件(wav/mp3/etc)中的短语?
例如,如果我有一个语音文件和同一文件上下文的书面文本,以便让它识别语音文件中的书面文字。
我试着尝试使用SpeechRecognitionEngine,但到目前为止都没有成功。
我很欣赏这些想法,因为这是我第一次接触语音识别技术。
我见过使用字典的语音到文本转换的示例,但我不确定它在这里如何有用。我想也许可以将所有的语音文件转换成文本,然后简单地在文本中查找特定的短语,但我认为这不是正确的方法。例如,将5小时的语音转换为文本似乎没有意义。或者可能使用特定短语作为“字典”,并在语音文件中查找该项。
发布于 2012-04-30 14:22:24
看起来你需要在一个长文件中寻找一个特定的单词。这项技术被称为“关键字识别”,它与语音识别有很大的不同,效率更高。显然,你不需要转录整个文件来搜索其中的一个单词,你可以快速扫描整个文件。Microsoft语音识别引擎对关键字识别的支持非常有限。
像CMUSphinx这样的开源引擎可以用来高效地实现关键字识别。有关how to implement wake-up listening with pocketsphinx的更多参考信息,请参见。
有关底层算法的更多信息,请参阅ACOUSTIC KEYWORD SPOTTING IN SPEECH WITH APPLICATIONs TO DATA MINING
发布于 2012-04-30 08:18:14
根据MSDN的文章Getting Started with Speech Recognition。
你需要做的步骤是(摘自文章)。请注意创建识别语法步骤。本文继续建议使用GrammerBuilder或Choices类。
语音识别应用程序通常会执行以下基本操作:
-启动语音识别器。
-创建识别语法。
-将语法加载到语音识别器中。
-注册语音识别事件通知。
-为语音识别事件创建处理程序。
发布于 2012-05-02 01:32:03
如果您尝试使用Microsoft语音引擎转换音频文件,则必须小心。首先,唯一支持的格式是WAV (可以编码为PCM、ALaw或uLaw),但您必须验证您的文件是否为识别器支持的格式。您还必须验证采样率。识别器仅支持一组固定的采样率。在我的机器上,
效果很好。有关详细信息,请参阅https://stackoverflow.com/a/6203533/90236。您可能需要使用audacity之类的工具对WAV文件进行重新采样或重新编码。参见https://stackoverflow.com/a/9467044/90236。
在SAPI and Windows 7 Problem中提供了一个简单的入门示例。
最后,(我总是重复这一点,对不起)有一篇关于Windows .NET中编程识别的很棒的文章。参见http://msdn.microsoft.com/en-us/magazine/cc163663.aspx,它有点过时了,但这是一个很好的介绍。
https://stackoverflow.com/questions/10377054
复制相似问题