首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

VoiceBox:游戏中的每个角色都可以有个性化声音了!Meta推出的语音生成AI

你是否想过,如果你能用任何语言说话,你的生活会有多么不同?你可以和世界各地的人交流,学习新的文化。但是,学习一门新语言并不容易,需要花费大量的时间和精力。有没有一种方法,可以让你用任何语言说出任何想说的话呢?

Meta(原Facebook)最近发布了一款名为VoiceBox的音声生成AI模型,它可以让你用任何语言说出任何想说的话,而且听起来就像是真人在说话一样。

项目地址:

https://voicebox.metademolab.com/index.html

官方论文地址:

https://dl.fbaipublicfiles.com/voicebox/paper.pdf

VoiceBox不仅可以将文本转换为音声,还可以进行音声合成、噪音消除、内容编辑、风格转换等多种任务。VoiceBox是基于meta的非自回归流匹配模型构建的,通过在大规模数据上学习解决文本引导的音声填充任务,超越了单一目标的AI模型,在音声任务上通过文脈内学习实现了更好的效果。

VoiceBox能做很多事情:

音声合成:VoiceBox可以根据输入的文本和音声样本生成与样本相似的音声。例如,你可以输入一段英文文本和一个法语音声样本,VoiceBox就可以用法语发音读出英文文本。这样,你就可以用任何语言说出任何想说的话了。

噪音消除:VoiceBox可以像魔术橡皮擦一样消除音声中的瞬时噪音。例如,如果你在录音时被门铃或狗叫声打断了,你不需要重新录制,只需要用VoiceBox重新生成去除噪音的音声就可以了。

内容编辑:VoiceBox也可以帮助你纠正说错的话或修改想说的话,而不需要重新录制。例如,如果你说了“will find himself completely at a loss on occasions of common and constant recurrence speculative ability is one thing and practical ability is another”,但是你想改成“will find himself completely at a loss on rare and unpredictable circumstances speculative ability is one thing and practical ability is another”,你只需要输入修改后的文本,VoiceBox就可以用相同的声音和风格读出来。

风格转换:VoiceBox还可以根据参考音声的风格生成新的音声。例如,你可以输入一个喜剧演员的笑话和一个新闻主播的音声,VoiceBox就可以用新闻主播的风格读出笑话。

多样性采样:VoiceBox还可以用多种不同的声音读出同一段文本。例如,你可以输入一段介绍VoiceBox的文本,VoiceBox就可以用英语、法语、德语、西班牙语、波兰语和葡萄牙语分别读出来。

VoiceBox如何工作?

VoiceBox是一个非自回归流匹配模型,它通过学习在大规模数据上解决文本引导的音声填充任务来实现音声生成。具体来说,VoiceBox的输入是一段音声和一段文本,输出是一个完整的音声。

VoiceBox的目标是让输出音声与输入音声在内容和风格上保持一致,同时与输入文本匹配。为了实现这一目标,VoiceBox使用了流匹配的方法,即将输入音声和输出音声看作两个概率分布,然后通过最小化它们之间的距离来进行优化。

这样,VoiceBox就可以在不需要任何额外的监督信号的情况下,学习如何生成自然而多样的音声。

VoiceBox的优势在于它可以通过文脈内学习来适应不同的音声任务,而不需要针对每个任务进行特定的训练。这是因为VoiceBox可以利用输入音声和文本中的上下文信息来生成合适的输出音声。

例如,如果输入音声是一个法语发音的英文单词,那么VoiceBox就会生成一个法语发音的英文句子;如果输入音声是一个有背景噪音的英文句子,那么VoiceBox就会生成一个去除噪音的英文句子;

如果输入音声是一个有特定风格的英文句子,那么VoiceBox就会生成一个具有相同风格的英文句子。这样,VoiceBox就可以用同一个模型来完成多种不同的音声任务。

VoiceBox有什么用途?

元宇宙:VoiceBox可以让你在元宇宙中创造自己独一无二的角色,用任何语言和任何风格说话。你可以和来自不同国家和文化的人交流,体验不同的世界和故事。

虚拟助理:VoiceBox可以让你定制你自己的虚拟助理,用你喜欢的语言和声音与你交流。你可以让你的虚拟助理读出新闻、天气、日程等信息,或者给你讲笑话、故事、诗歌等内容。

视觉障碍者:VoiceBox可以让视觉障碍者听到他们朋友或亲人的声音读出信息。例如,他们可以用VoiceBox将文字消息转换为他们朋友或亲人的声音,并通过耳机听取。

教育:VoiceBox可以让学习者听到不同语言和风格的音声,提高他们的听力和口语能力。例如,他们可以用VoiceBox将英语教材转换为法语、德语、西班牙语等不同语言,并模仿不同发音和口音。

VoiceBox虽然很强大,但也有一些限制:

数据质量:VoiceBox依赖于大规模数据进行训练,因此数据质量对于模型性能至关重要。如果数据中存在噪音、错误、偏见等问题,那么模型可能会产生不准确或不合适的输出。

伦理风险:VoiceBox也可能被用于不良目的,例如伪造他人身份、欺骗或骚扰他人、侵犯他人隐私或版权等。因此,使用VoiceBox时需要遵守相关法律法规,并尊重他人权利和利益。

社会影响:VoiceBox也可能对社会产生一些影响,例如改变人们对于真实性和信任性的认知、影响

音声的价值和意义等。因此,使用VoiceBox时需要考虑其可能带来的正面和负面的影响,并做出负责任的选择。

VoiceBox目前还没有对外公开,但是你可以在meta的官方网站上了解更多信息或观看演示视频。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20230622A005AQ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券