专栏首页MixLab科技+设计实验室《轮到你了》的菜奈AI是如何克隆声音的?

《轮到你了》的菜奈AI是如何克隆声音的?

最近在追日剧《轮到你了》,最新的15集里,二阶堂给翔太制作了一个菜奈的AI,是个手机app,界面非常简单,采用的是聊天机器人的界面,只不过是语音聊天的方式,此AI学习了菜奈的声音跟语言风格。

那么,我们如果想自己DIY一个,应该如何操作呢?

首先,我们了解下相关的技术概念。

01

传统方法

语音合成

Text to Speech Synthesis

是一种将文本转化为语音的技术。

传统TTS是基于拼接和参数合成技术,涉及非常多的细节,比如以文本分析语言模型、语音持续时间模型、声学特征预测模型、将频谱恢复成时域波形的声码器等等。

02

“端到端”深度学习

深度学习的解决方案是一种称为“端到端”的生成模型。典型代表是谷歌的Tacotron。

所谓“端到端”就是直接从文本合成语音,不需要拆解出文本分析、语音持续时间、声学特征等子系统,只需准备[文本,声谱]配对的数据集,即可进行训练。

中文语音数据集长什么样呢?

比如,有这么一句文本:

绿 是 阳春 烟 景 大块 文章 的 底色 四月 的 林 峦 更是 绿 得 鲜活 秀媚 诗意 盎然

使用汉语拼音标注为:

lv4 shi4 yang2 chun1 yan1 jing3 da4 kuai4 wen2 zhang1 de5 di3 se4 si4 yue4 de5 lin2 luan2 geng4 shi4 lv4 de5 xian1 huo2 xiu4 mei4 shi1 yi4 ang4 ran2

这样就可以让机器学会将每一个类似于英文单词的方式,对应到声谱的某几帧。

03

使用

如果想自己动手训练一个属于自己的文本转语音AI,可以查找谷歌Tacotron的开源代码,自己修改训练。

如果不想这么麻烦,我们可以选择API调用的方式,百度ai或者讯飞都提供了类似的功能,声音也有多种风格可选。

04

风格迁移

这只是文本转语音,如果我们想要让这个语音可以按照某个人的声音输出,应该怎么办呢?

图像领域有风格迁移技术,受此启发,谷歌发布了一个可以克隆任何人声音的模型。

开源地址https://github.com/CorentinJ/Real-Time-Voice-Cloning

使用简单,有兴趣可以去了解下。

综上,一款可以克隆任何人声音的AI即将诞生。

本文分享自微信公众号 - 无界社区mixlab(mix-lab)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-08-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【AI大咖】ML宗师乔教主,Science评选的全世界最有影响力的计算机科学家

    在AI领域,可以称为教父的人不多,一眼我们看向“深度学习鼻祖”Hinton教授,另一眼一定会望向“机器学之父”乔丹乔教主。今天带你领略一下机器学习领域的“飞人乔...

    用户1508658
  • 【知识星球】3D网络结构解读系列上新

    欢迎大家来到《知识星球》专栏,这两天有三AI知识星球专注更新3D相关的网络模型解读,共10期左右。3D网络在视频数据,点云图像,3D医学图像,光流估计等领域有重...

    用户1508658
  • 【图像分类】分类专栏正式上线啦!初入CV、AI你需要一份指南针!

    大家好,今天我将在有三AI开设新专栏《图像分类》。在这个专栏中,我将全方位介绍图像分类相关知识,并结合不同任务需求进行实战,和大家一同走近这看似简单却包罗万象的...

    用户1508658
  • 【知识星球】数据集板块重磅发布,海量数据集介绍与下载

    有三AI知识星球的“数据集板块”正式上线,提供数据集介绍,论文下载,数据集下载3大功能,那些因为网速问题,因为需要签license的蛋疼问题,从此不再成为问题!

    用户1508658
  • 【知识星球】颜值,自拍,美学三大任务简介和数据集下载

    欢迎大家来到《知识星球》专栏,今天给大家介绍三个任务,提供三个美学相关的数据集的下载,其中两个和人像有关,一个和通用的美学任务有关,下载可以进入知识星球自取,相...

    用户1508658
  • 【AI初识境】深度学习中常用的损失函数有哪些?

    这是专栏《AI初识境》的第11篇文章。所谓初识,就是对相关技术有基本了解,掌握了基本的使用方法。

    用户1508658
  • 【GAN优化】一览IPM框架下的各种GAN

    今天的这篇小文将是GAN模型理论介绍的最后一篇。有一些内容,所用数学技巧和方法非常高大上,理论结果也非常漂亮,但是完全搞明白其中的门门道道需要相当大精力和知识铺...

    用户1508658
  • Python基础 | 快速实现label_to_index

    在做机器学习分类问题的时候,经常需要将标签名转换为对应的索引。什么是label_to_index问题?下面将通过一个案例来详细说明。

    算法与编程之美
  • 【NLP】 深度学习NLP开篇-循环神经网络(RNN)

    从这篇文章开始,有三AI-NLP专栏就要进入深度学习了。本文会介绍自然语言处理早期标志性的特征提取工具-循环神经网络(RNN)。首先,会介绍RNN提出的由来;然...

    用户1508658
  • 【GAN优化】详解SNGAN(频谱归一化GAN)

    今天将和大家一起学习具有很高知名度的SNGAN。之前提出的WGAN虽然性能优越,但是留下一个难以解决的1-Lipschitz问题,SNGAN便是解决该问题的一个...

    用户1508658

扫码关注云+社区

领取腾讯云代金券