请描述您的问题
标题:腾讯云云产品新购特惠,五折上云!
地址:https://cloud.tencent.com/act/first_purchase?utm_source=portal&utm_medium=cdb&utm_campaign=firstpurchase&utm_term=0110
浏览器信息
Mozilla/5.0 (Macintosh; Intel Mac OS X 10.13; rv:58.0) Gecko/20100101 Firefox/58.0
请描述您的问题
标题:腾讯云云产品新购特惠,五折上云!
地址:https://cloud.tencent.com/act/first_purchase?utm_source=portal&utm_medium=cdb&utm_campaign=firstpurchase&utm_term=0110
浏览器信息
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36
我的目标是使用一个语音到文本模型来处理几个视频。
令人困惑的是,谷歌有两款产品似乎都在做同样的事情。
这些产品的主要区别是什么?
Google语音到文本:
- Speech-to-Text has an "enhanced video" model for interpreting the audio.
谷歌视频智能:
- VI has the option to request a `SPEECH_TRANSCRIPTION` feature
我有一个用m型超声波拍摄的10秒的心脏视频(60fps),我希望在这些视频上训练一个预测模型,每个视频都有三个自定义标签。我对对每个单独的帧进行分类不感兴趣,因为我可以自己做,而是根据每个帧对10秒的视频进行分类,并在~600帧的系列之间进行变化(例如运动)。
Clarifai Video V2或谷歌的视频智能是否提供这样的自定义标签的训练/预测?