专栏首页MixLab科技+设计实验室《轮到你了》的菜奈AI是如何克隆声音的?

《轮到你了》的菜奈AI是如何克隆声音的?

最近在追日剧《轮到你了》,最新的15集里,二阶堂给翔太制作了一个菜奈的AI,是个手机app,界面非常简单,采用的是聊天机器人的界面,只不过是语音聊天的方式,此AI学习了菜奈的声音跟语言风格。

那么,我们如果想自己DIY一个,应该如何操作呢?

首先,我们了解下相关的技术概念。

01

传统方法

语音合成

Text to Speech Synthesis

是一种将文本转化为语音的技术。

传统TTS是基于拼接和参数合成技术,涉及非常多的细节,比如以文本分析语言模型、语音持续时间模型、声学特征预测模型、将频谱恢复成时域波形的声码器等等。

02

“端到端”深度学习

深度学习的解决方案是一种称为“端到端”的生成模型。典型代表是谷歌的Tacotron。

所谓“端到端”就是直接从文本合成语音,不需要拆解出文本分析、语音持续时间、声学特征等子系统,只需准备[文本,声谱]配对的数据集,即可进行训练。

中文语音数据集长什么样呢?

比如,有这么一句文本:

绿 是 阳春 烟 景 大块 文章 的 底色 四月 的 林 峦 更是 绿 得 鲜活 秀媚 诗意 盎然

使用汉语拼音标注为:

lv4 shi4 yang2 chun1 yan1 jing3 da4 kuai4 wen2 zhang1 de5 di3 se4 si4 yue4 de5 lin2 luan2 geng4 shi4 lv4 de5 xian1 huo2 xiu4 mei4 shi1 yi4 ang4 ran2

这样就可以让机器学会将每一个类似于英文单词的方式,对应到声谱的某几帧。

03

使用

如果想自己动手训练一个属于自己的文本转语音AI,可以查找谷歌Tacotron的开源代码,自己修改训练。

如果不想这么麻烦,我们可以选择API调用的方式,百度ai或者讯飞都提供了类似的功能,声音也有多种风格可选。

04

风格迁移

这只是文本转语音,如果我们想要让这个语音可以按照某个人的声音输出,应该怎么办呢?

图像领域有风格迁移技术,受此启发,谷歌发布了一个可以克隆任何人声音的模型。

开源地址https://github.com/CorentinJ/Real-Time-Voice-Cloning

使用简单,有兴趣可以去了解下。

综上,一款可以克隆任何人声音的AI即将诞生。

本文分享自微信公众号 - 无界社区mixlab(mix-lab),作者:shadow chi

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-08-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 智能化趋势v2.0

    hi,大家好~我是shadow,跨界设计师/全栈工程师/算法研究,目前主要研究方向是跨学科技术与体验,包括智能设计、智能产品、智能写作、增强现实等。

    mixlab
  • ML37-Baoling【mixlab共建者的故事】

    mixlab近期会对共建者们进行一些专访,mixlab对共建者的要求是具备跨界、开放、互助、学习、创新的特质,认同我们的价值观,愿意共同为“让每个人无限可能”的...

    mixlab
  • 谷歌AI Guidebook读后感,应该如何设计智能产品?

    实践的过程中,要不断地补充理论知识,总结经验,然后继续实践,如此循环,前进。今天结合实践心得总结一下智能产品设计的几个要点。主要的理论来源是社区的成员志荣推荐我...

    mixlab
  • 动态 | 序列转换模型三合一!谷歌提出首个端到端的直接语音翻译模型

    AI 科技评论按:不同语言之间的语音到语音转换早已不是什么新鲜事了,任务拆分简单直接,只需要把「源语言的语音识别模型(语音转文本)」、「文本到文本翻译模型」、「...

    AI科技评论
  • 聊聊Neo4j图数据库的那些明显优势

    在高速发展的互联网应用中,业务需求的频繁变更和数据的快速增长都要求数据库必须具有很强的适应能力。Neo4j图数据库正是一个能够适应这种业务需求不断变化和大规模数...

    博文视点Broadview
  • 大案!大案!大案! 网传A站、摩拜数据库泄露

    13号凌晨,黑客聚集的暗网突现一条售卖信息,一名黑客号称出售两个权重超高的shell+内网权限,A站acfun.cn与摩拜单车,信息中称两个网站日流量均超百万,...

    安恒信息
  • 美军的AI发展计划研究(2)

    支持人工智能(AI)的技术有很多种,如机器学习(ML),这是计算机科学(CS)的成熟领域,根据统计和优化的深厚技术,可以建立数据的行为模式。在过去10年,ML某...

    数据猿
  • 浙大学霸本科生顶会研究!只需20分钟音频,AI就能逼真模仿你的声音

    浙江大学和微软的新研究证明,从0开始学习你的声音到准确逼真,AI只需要200个音频片段和相应标注,20分钟的素材就足够了。

    代码医生工作室
  • 大数据中台向AI中台演进是大势所趋?

    本文为王东的采访实录整理,从技术视角到业务视角,在中台的落地契机、AI与大数据关系、AI和大数据技术的落地等方面提出了他的看法。

    AI科技大本营
  • 技术|深度学习行业应用及就业方向大猜想

    一直以来,大家都在盛传深度学习是工程师的风口,但是对于深度学习和行业的联系却很少被提及。

    用户1386409

扫码关注云+社区

领取腾讯云代金券