我有一个名为student的WAV文件,现在我想将其转换为文本,并将此文本下载为JSON文件。
WAV文件(音频)包含以下内容:“你好,我是Michel。我是一名格鲁吉亚大学的学生”。
JSON文件需要将上述内容作为字符串。
基本上,将语音转换为文本。
发布于 2018-08-19 04:38:45
相当多的语音识别软件依赖于HMM或隐马尔可夫模型。这种方法的工作假设是,当在足够短的时间尺度(例如,10毫秒)上查看语音信号时,可以合理地将其近似为平稳过程,即统计特性不随时间变化的过程。语音被分成10 mm的片段,并被映射到称为cepstral系数的实数向量,然后这些向量与音素匹配。这是一个典型的语音识别系统的高度概述。
现在,回到你的需求,一点研究就会把你带到像这样的库-
现在使用SpeechRecognition很简单(取自source code,在我的电脑上试用)-
import speech_recognition as sr
from os import path
AUDIO_FILE = path.join(path.dirname(path.realpath(__file__)), "english.wav")
r = sr.Recognizer()
with sr.AudioFile(AUDIO_FILE) as source:
audio = r.record(source) # read the entire audio file
try:
print("Sphinx thinks you said " + r.recognize_sphinx(audio))
except sr.UnknownValueError:
print("Sphinx could not understand audio")
except sr.RequestError as e:
print("Sphinx error; {0}".format(e))
瞧,它只用了十行代码就可以工作了,这要归功于令人惊叹的开发人员开发了这些:)
编辑-您需要设置PocketSphinx才能使此代码工作。
https://stackoverflow.com/questions/51912131
复制相似问题