我的目标是使用一个语音到文本模型来处理几个视频。
令人困惑的是,谷歌有两款产品似乎都在做同样的事情。
这些产品的主要区别是什么?
Google语音到文本:
- Speech-to-Text has an "enhanced video" model for interpreting the audio.
谷歌视频智能:
- VI has the option to request a `SPEECH_TRANSCRIPTION` feature
我不确定我能区分和理解以下几个方面的区别:
VAD (语音活动检测)和
Speaker Segmentation
我了解到:
VAD -分割语音段或非语音段的音频
扬声器分割-将音频分割成非语音片段和不同的扬声器
例如:
VAD = [not speech, speech, not speech, speech, not speech]
Speaker Segmentation = [not speech, speech , not speech, speech A, speech B, not speech]
我说得对吗?