首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

微软宣布人工智能驱动的声音模拟解决方案

微软研究人员开发了一种名为 VALL-E 的新型人工智能模型,可以在给定三秒钟的声音样本时模拟人的声音。发达的人工智能只需三秒钟的音频摘录就能创造奇迹,长篇大论的文本也能像出自同一个人一样发声。

VALL-E 能够合成从人那里接收到的声音,并以一种保留情绪基调的方式进行合成。该软件公司将 VALL-E 称为“神经编解码器语言模型”。在此之前开发的文本到语音 AI 解决方案以标准方式处理波形和合成语音。另一方面,VALL-E 可以生成带有文本和声音的单独音频编解码器代码。基本上,它分析一个人的声音,通过 EnCodec 解析所有数据,并通过人工智能训练模型预测给定示例以外的话语形式。微软的定义如下:

“ VALL-E根据声音信息生成声学数据和声学样本,即使是3秒的录音限制说话人和内容信息,实现个性化语音合成。最后,生成的声学样本用于与相应的神经解码器合成最终波形。”

微软在 Meta 整合的名为 LibriLight 的声音库上训练了 VALL-E 的语音合成能力。该图书馆包含 7,000 多名演讲者的 60,000 小时英语口语,其中大部分摘自公开的LibriVox有声读物。为了让 VALL-E 产生好的结果,三秒样本中的声音必须与训练数据中的声音非常匹配。

除了保留说话者的音色和情绪基调外,微软的解决方案还可以模拟样本音频的“声学环境”。例如,假设当前音频取自电话。音频输出模拟电话的声学和频率特性的合成输出。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20230112A0231X00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券