我在iOS上遇到了一个奇怪的问题。
我正在使用Ionic Native Media插件录制音频,并尝试使用HTML5 Web audio API (WavesurferJS或HowlerJS)播放录制的内容。在我录制音频之后,如果我尝试立即播放录制的音频,音频将不会播放,但如果我关闭应用程序,然后重新打开它,音频将正常播放。
HowlerJS抛出的错误是“解码音频时出错”。我的想法是原生媒体插件没有完全释放文件,因此没有授予HowlerJS读取音频数据的权限。
任何想法或方向都是值得感谢的。
我正在使用以下Gradio示例代码来转录我的音频:
from transformers import pipeline
p = pipeline("automatic-speech-recognition")
import gradio as gr
def transcribe(audio):
text = p(audio)["text"]
return text
gr.Interface(
fn=transcribe,
inputs=gr.Audio(source="microphone", type=&
我可以使用Swift for iOS录制音频,并播放录制的音频文件。我想问的是,是否可以检查录制的音频文件的背景噪声&音量/分贝,这样我就可以确定它对于我的speech to text框架是否足够好。框架不是问题所在,我研究了所有可用的框架。
我很好奇是否可以使用AVFoundation或Accelerate框架或任何其他框架分析录制的音频文件,以检查音频文件是否足够好/足够清晰,可以使用speech to text框架进行处理。
我没有太多的音频知识,但我研究了一下,发现我可以在录音时获得峰值和平均分贝值,但背景噪音呢?
任何信息都有助于使用Swift分析录制的音频文件。