前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >妈耶,摆脱机器音,二次宅的歌姬女友彻底活了

妈耶,摆脱机器音,二次宅的歌姬女友彻底活了

作者头像
AI科技大本营
发布2018-12-28 15:39:37
5420
发布2018-12-28 15:39:37
举报
文章被收录于专栏:AI科技大本营的专栏

二次宅们,你们的虚拟歌姬女友/偶像可以真正出道了。

最近,一家日本公司展示了他们在虚拟歌姬上使用的新开发语音合成技术,效果惊艳,几乎听不出虚拟歌姬歌声中那“面瘫”式的机械音,现在的歌声有起承转合,有气息声,更有力度,能让你在脑海中自然脑补它的表情。

这项语音合成技术目前可以支持日语、中文和英语。先放出两个技术演示视频,你感受下每段视频里旧技术、新技术以及新技术合成后的比对效果。

引用网友克制的评价就是“延伸高频低频,衔接连贯柔和”,近乎人声啊。

对了,听出来是哪位歌姬的声音了吗?佐藤莎莎拉,这个在 2013 年面世的姑娘,近几年已经鲜少有它的新闻了,但这次随着 AI 语音合成的出现,让宅男们大呼“老婆重生了”。

等不及了,再来欣赏一曲中文版的《爱情转移》:

是不是觉得要甩人类的修音歌手好几条街?skr.

反正大部分激动的二次宅朋友们“疯辽”,一眼望去,评论全部都是目瞪口呆jpg.

如此让二次宅感到炸裂的技术究竟如何做到,幕后操作者又是谁?

一个基本事实是,虚拟歌姬佐藤莎莎拉是日本 CeVIO 公司在 2013 发布的 CeVIO Creative Studio 声音创作软件中的虚拟角色。

公开资料显示,CeVIO Creative Studio 是基于 hts engine 引擎作成的新型语音和歌唱合成的软件,在算法本质上与 VOCALOID & UTAU 等软件的大声库“拼接算法”不同,因此只是较小的声库,但语音和歌唱可以简单而自然地合成,语音合成可以调整参数使虚拟歌姬说话更加接近人声,此外,还会自动加入呼吸声并自动调教。

但这次的技术应该是基于新版的合成引擎,由 CeVIO 的开发方 Techno-Speech 公司与名古屋工业大学国际音声言语技术研究所共同合作。Techno-Speech 在官方新闻稿中称,通过深度学习技术学习特定歌唱者的声质、语癖、演唱风格,并进行合成使之可以演唱任意的歌词和乐谱,只需歌唱者进行约 2 个小时的演唱就可以获取数据。

云知声 AI labs 研发总监告诉 AI科技大本营,上述音频中旧的语音样例应是传统参数合成技术,缺点是合成声音的质量低,机械音较明显。而新语音样例借助深度学习技术,使得参数建模精度有明显提升,同时,可能使用最新的 WaveNet 声码器,使得合成音质有明显的提升。

另外,与合成自然说话的声音相比,合成歌声的技术要求是不是更高?

上述语音合成专家表示,两者都是数据驱动,但歌唱合成的韵律变化性反而没有自然说话时变化多端,这对数据量的要求也相应要小。歌唱合成需要很精准的韵律恢复,输入的是乐谱,而乐谱中已有很明确的韵律描述,比如某个字应该发多长音、发什么调,都可以通过规则计算出来,并根据结果对合成语音进行调整,从而不会有走调现象。反之,如果韵律恢复不准确,就会有明显走调现象。

至于新合成技术更详细的研究成果,Techno-Speech 公司将在 2019 年 3 月的日本声学学会春季会议上进行公布。Techno-Speech 公司还称,届时虚拟歌姬的歌唱水平会有飞跃性的提升。此外,该技术可能的应用还包括以下八个方面:

  • 艺术家歌声的复现(包括死者的声音)
  • 用于音乐制作和游戏开发
  • 虚拟 YouTubers 的视频流/直播活动
  • 虚拟演员的后期录制系统
  • AI 或语音对话系统的发声模块
  • 为外语/歌唱教育生成灵活的参考语音
  • 用于 ALS 或喉癌患者的语音设备
  • 护理设施的数字标牌

从作词、作曲到演唱,AI 技术带来的能量毋庸置疑。

也许你还记得去年 9 月底微软小冰 diss 传统虚拟歌姬的事,当时前者高调宣称后者的技术过时,虚拟歌姬的调教技巧将不再具有价值,这引起了 V 家粉丝的集体抵制并迫使小冰道歉。

虽然这是营销层面的问题,但在技术上,新旧技术并不完全割裂,而是相互融合,深度技术的使用可以节省调教师的很多时间。或许,我们也会很快看到初音未来、洛天姬等虚拟歌姬靠 AI 技术迎来突破。

上个月,一位日本 35 岁青年与虚拟女友初音未来举办了婚礼,结婚理由是被 MIKU 的歌声治愈,遇到 MIKU 随即坠入“爱河”,十三年来不曾变心。

要是其他虚拟歌姬都有了现在这样细腻的歌声,二次宅们不更疯狂?有点不敢想。

(*本文为 AI科技大本营原创稿件,转载请联系微信 1092722531

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-12-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技大本营 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音合成
语音合成(Text To Speech,TTS)满足将文本转化成拟人化语音的需求,打通人机交互闭环。提供多场景、多语言的音色选择,支持 SSML 标记语言,支持自定义音量、语速等参数,让发音更专业、更符合场景需求。语音合成广泛适用于智能客服、有声阅读、新闻播报、人机交互等业务场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档