我有android的Speech To text API来对手机说话,并将其转换为文本。默认情况下,如果用户停止对麦克风讲话,API将假定用户已结束讲话,并返回输入语音中的文本。对于我的应用程序,用户可能在她的连续句子之间有很长的停顿。我如何配置Android的speech to text API,让它只在我要求的时候才考虑演讲的结尾,而不是在说话者在</
将上述步骤1的输出发送到text to audio接口。我想发送上述生成的文本或JSON (从音频到文本API),并转换我的文本到音频再次。音频应该保留时间戳,以便我可以得到相同的原始文件与中断,暂停,沉默与不同的声音。因此,如果我的原始文件是1分钟的持续时间,我想生成相同的1分钟不同声音的持续时间文件。所以,它应该保留我的停顿,沉默