Meta的突破性的语音生成AI模型:Voicebox。Voicebox只需要2秒钟的语音样本,就能够克隆任何人的语音。而且文字转语音的速度比市场上其它模型快20倍,同时错误率更低。Voicebox可以在没有专门训练的情况下,进行诸如噪音消除、内容编辑、风格转换,语言转换等任务。语音内容再也不需要重录了。Voicebox所基于的是一种名为Flow Matching的方法。该方法已经被证明可以提高扩散模型的性能,超越了当前最先进的模型VALL-E1。这种技术当然带来了社会风险。想象一下,有人用你2秒钟的语音样本,恶意模仿你的声音,可能会导致什么后果?
领取专属 10元无门槛券
私享最新 技术干货