我在google Speech- to -text中不断得到这个错误的InvalidArgument: 400
,问题似乎是我正在使用一个2声道的音频(立体声),而API正在等待一个wav in (单声道)。
如果我在音频编辑器中转换文件,它可能会工作,但我不能使用音频编辑器来转换一批文件。有没有办法在Python或Google Cloud中更改音频类型。
注意:我已经尝试了"wave module“,但我一直收到一个错误#7,文件类型无法识别(我无法从Python中读取wave模块的wav文件)
-错误- InvalidArgument: 400必须使用单声道(单声道)音频,但WAV标头指示2声道。
发布于 2019-03-12 04:11:18
假设您使用的是google-cloud-speech库,您可以在RecognitionConfig
中使用audio_channel_count
属性并指定输入音频数据中的声道数(它默认为一个声道(单声道))。你可以这样做:
from google.cloud import speech
client = speech.SpeechClient()
results = client.recognize(
audio = speech.types.RecognitionAudio(
uri = 'gs://your-bucket/recording.wav',
),
config = speech.types.RecognitionConfig(
encoding = 'LINEAR16',
language_code = 'en-US',
sample_rate_hertz = 44100,
audio_channel_count = 2,
),
)
有关详细信息,请参阅API doc。
发布于 2019-09-11 16:04:53
你应该使用下面的函数来动态返回音频通道& frame_rate,它获取音频文件的路径,并返回帧率和通道数
def frame_rate_channel(audio_file_name): print(audio_file_name) with wave.open(audio_file_name, "rb") as wave_file: frame_rate = wave_file.getframerate() channels = wave_file.getnchannels() return frame_rate,channels
https://stackoverflow.com/questions/55106509
复制相似问题