微软宣布人工智能驱动的声音模拟解决方案

文章来源：企鹅号 - 科技蓝途说

微软研究人员开发了一种名为 VALL-E 的新型人工智能模型，可以在给定三秒钟的声音样本时模拟人的声音。发达的人工智能只需三秒钟的音频摘录就能创造奇迹，长篇大论的文本也能像出自同一个人一样发声。

VALL-E 能够合成从人那里接收到的声音，并以一种保留情绪基调的方式进行合成。该软件公司将 VALL-E 称为“神经编解码器语言模型”。在此之前开发的文本到语音 AI 解决方案以标准方式处理波形和合成语音。另一方面，VALL-E 可以生成带有文本和声音的单独音频编解码器代码。基本上，它分析一个人的声音，通过 EnCodec 解析所有数据，并通过人工智能训练模型预测给定示例以外的话语形式。微软的定义如下：

“ VALL-E根据声音信息生成声学数据和声学样本，即使是3秒的录音限制说话人和内容信息，实现个性化语音合成。最后，生成的声学样本用于与相应的神经解码器合成最终波形。”

微软在 Meta 整合的名为 LibriLight 的声音库上训练了 VALL-E 的语音合成能力。该图书馆包含 7,000 多名演讲者的 60,000 小时英语口语，其中大部分摘自公开的LibriVox有声读物。为了让 VALL-E 产生好的结果，三秒样本中的声音必须与训练数据中的声音非常匹配。

除了保留说话者的音色和情绪基调外，微软的解决方案还可以模拟样本音频的“声学环境”。例如，假设当前音频取自电话。音频输出模拟电话的声学和频率特性的合成输出。

发表于: 2023-01-122023-01-12 10:44:50
原文链接：https://kuaibao.qq.com/s/20230112A0231X00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

微软宣布人工智能驱动的声音模拟解决方案

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐