前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >王源也推荐!“读诗成曲”游戏火了,思必驰揭秘背后技术

王源也推荐!“读诗成曲”游戏火了,思必驰揭秘背后技术

作者头像
量子位
发布2019-04-24 10:49:56
8980
发布2019-04-24 10:49:56
举报
文章被收录于专栏:量子位
安妮 发自 凹非寺 量子位 出品 | 公众号 QbitAI

学唱一首歌要多久?1小时,5小时还是一天?

如果你关注了昨晚(1月28日)央视八点档的《经典咏流传》就会发现,学会一首歌的时间,30秒足够了。

输入诗词朗读,输出自己嗓音的歌曲,这个“读诗成曲”的H5游戏火了。

据统计,节目播出后的90分钟内,超过14万人次参与合成自己的歌,H5转发量超过10万。连王源小哥哥也在线推荐:

王源在节目现场演唱《长歌行》并邀请你一起来读诗成曲

甚至还登上了实时热搜榜:

用你的声音合成歌曲,这次又是AI立功了。

决战30秒

扫码进入H5界面,量子位开启了“读诗成曲”游戏玩法探索模式。

在你开口读诗前,首先需要戳选你的音色,选择你的声音为男声、女声还是童声。随后,页面跳转到一个经典诗词曲库,请开始pick你喜欢的歌曲。

“决定性30秒”来了,此时,对着话筒大声朗读所选曲目的歌词(也是诗词),上传后稍等片刻,你朗读的诗词就被自动转换成了由宫商角徵羽组成的旋律。

确定过眼神,是自己的嗓音。

而且用这个小工具合成的歌声不仅听起来像自己的声音,而且高音部分还不、会、破、音,完美避开了“一破毁所有”的尴尬境地。

韵律合拍,又在传统春节的气氛中,可以无压力分享到票圈了。

技术揭秘

一段平平无奇的语音经AI之手,是怎样变成了婉转流利的歌曲的?

“读诗成曲”应用背后技术提供方其实是语音技术起家的思必驰。

思必驰副总裁兼北京研发院院长初敏解释,“读诗成曲”背后,主要应用了思必驰语音技术,尤其是个性化歌声合成技术

从一段文字到个性化,从技术角度来讲分为2大处理阶段,即语音识别与语音合成,后者又分为两步。

具体来看:

第一步,语音识别。用户按照屏幕提示朗读诗词,系统会先判定读音是否正确,通过后进行如语音合成阶段成曲。

第二步,声学模型加持,调整频谱参数。也就是说,通过第一步收集的你的声音数据训练模型,个性化学习后,让生成歌曲的音色像你本人。

第三步,韵律模型调节韵律参数,控制每个音的声音长短及高低,旋律就此确定。

随后,将韵律参数和频谱参数结合,生成歌声。一段音色属你,旋律似原唱且歌词为经典诗词的片段已合成。

整个流程下来,在网速保证的情况下1~2秒就能合成成功。初敏表示,至少支持10万人同时点击使用时秒出结果。

AI可以很好玩

把理解中国古诗词这种教育行为与合成歌声这种娱乐行为结合,也算的上是AI与泛娱乐领域结合的一次尝试。

初敏表示,读诗成曲项目虽然最初的动力来自央视,想要传承经典古诗词。但将AI与泛科技结合却是自己一直想做的。意义不仅在于好玩,也在于学习与教育。

思必驰副总裁、北京研发院院长初敏

比如,在读诗成曲中录音时,读错一个字语音识别系统就会提示录入错误建议重读,重新朗读至全部字词正确才可以进行合成。

这不是思必驰第一次在歌声和成领域的尝试,此前在《机智过人》节目中,思必驰打造的“小驰机器人”用撒贝宁的声音生成了一曲《好久不见》,还获得了撒贝宁的官方认可。

小撒表示,该歌声的“声音的相似度基本在90%以上”。

和《机智过人》中的离线技术不同,读诗成曲的难度大大提升,由一个非线上、不能互动的离线功能转变成一个近实时的互动游戏,时间要求高了,且未知性变大了。

挑战也随之而来。

变成互动性游戏后,录音效果无法预测,使用时不同的方言口音、手机机型、录音环境的嘈杂度是未可知的。初敏表示,针对极端场景已经进行了不少测试,但技术永远不能保证百分百。

初敏认为,科技公司有两个出口,一是严肃向、实用风的老路,第二就是走好玩的娱乐向,读诗成曲的项目就是。

娱乐向看似实用性不如前者,但每个人有机会可以去感受体验,且可以具有教育意义,所谓“寓教于乐”是也。

作为一家To B的企业,思必驰认为AI可以不用那么严肃,也不用那么高高在上,因为无论To B还是To C,最终面向的都是用户。

思必驰CMO龙梦竹表示,“读诗成曲”的这种大众参与方式还谈不上科普教育,但如果能让大众觉得“AI挺有趣”,也是一件很酷的事情。

传送门

想加入“读诗成曲”游戏大军,那就废话不多说了,点击“阅读原文”进入歌声世界↓↓↓

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-01-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 决战30秒
  • 技术揭秘
  • AI可以很好玩
  • 传送门
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档