相当多的语音识别软件依赖于HMM或隐马尔可夫模型。这种方法的工作假设是，当在足够短的时间尺度(例如，10毫秒)上查看语音信号时，可以合理地将其近似为平稳过程，即统计特性不随时间变化的过程。语音被分成10 mm的片段，并被映射到称为cepstral系数的实数向量，然后这些向量与音素匹配。这是一个典型的语音识别系统的高度概述。

现在，回到你的需求，一点研究就会把你带到像这样的库-

现在使用SpeechRecognition很简单(取自source code，在我的电脑上试用)-

import speech_recognition as sr
from os import path
AUDIO_FILE = path.join(path.dirname(path.realpath(__file__)), "english.wav")
r = sr.Recognizer()
with sr.AudioFile(AUDIO_FILE) as source:
    audio = r.record(source)  # read the entire audio file
try:
    print("Sphinx thinks you said " + r.recognize_sphinx(audio))
except sr.UnknownValueError:
    print("Sphinx could not understand audio")
except sr.RequestError as e:
    print("Sphinx error; {0}".format(e))

瞧，它只用了十行代码就可以工作了，这要归功于令人惊叹的开发人员开发了这些:)

编辑-您需要设置PocketSphinx才能使此代码工作。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/51912131

复制

相似问题

问如何将wav文件转换为JSON文件
EN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何将wav文件转换为JSON文件EN