语音识别＋歌声合成，思必驰的新产品想让普通人“读诗成曲”

文章来源：企鹅号 - 腾讯新闻版权合作-36氪

在小年夜，中央电视台《经典咏流传》第二季节目中出现了一款“读诗成曲”的在线互动小工具，用户仅需要朗读一段诗词，就可以听到用自己声音演唱的经典诗词唱段。那这是怎么实现的呢？

原来，“读诗成曲”的背后是思必驰提供的个性化歌声合成算法。歌声合成技术是语音合成（TTS,即 Text to Speech)的衍生品，其关键区别在于韵律预测模型不同。在普通TTS系统中，通常有个韵律模型来根据句子的内容和语调环境预测每个音素（音节）的时长和音高曲线。在歌声合成中，这个韵律模型则更换成由乐谱来预测每个音素（音节）的时长和音高的歌曲韵律模型。最终的生成过程仍然跟语音合成类似，将韵律参数和频谱参数结合，生成歌声。

在“读诗成曲”中，韵律预测模型可以使得机器根据人说话的语调合成歌曲，且根据唱段的韵律和节奏调整音调，这又是如何实现的呢? 思必驰首席科学家初敏博士告诉36氪：

韵律方面，思必驰在原有歌曲韵律模型的基础上增加了个性化学习技术，结合曲库和名曲唱段的特征生成相应的韵律曲线，使歌曲韵律特征尽量接近名曲唱段的特点；在语调方面，思必驰应用了声学模型的个性化学习技术，使得生成的频谱参数尽量接近用户的声音，通过将接近用户的频谱参数和接近名曲唱段的韵律参数结合，就能生成用户“原声”唱出的“经典”曲调了。

36氪注意到，这并非思必驰首次将个性化歌声合成技术运用于泛娱乐领域，此前在央视节目《机智过人》中，思必驰团队的“小驰”机器人就曾用撒贝宁的声音演唱过《好久不见》。不同于以往，此次“读诗成曲”则在曲目和参与度上更为开放，支持任何用户从既定曲库中自选歌曲，曲库主要来自节目第一季、第二季嘉宾的演唱曲目。

近两年，语音合成技术进入商业落地加速期，除BAT大厂纷纷着眼外，此前36氪也曾报道过标贝科技等创业公司。除了在泛娱乐领域布局，思必驰又会如何将语音合成技术商业落地呢？据初敏博士透露，思必驰更多会将语音合成技术与语音识别、口语理解等算法配套，为泛物联网领域产品提供全链路对话交互方案。

具体来说，思必驰当前的业务围绕四个AI进行整体布局：AIOT、AI芯片、AIBOT、AI生态。AIOT业务在泛物联网领域（包括智能车载、智能家居、智能玩具/机器人、智能手机等）提供软件、软硬一体化、Turnkey一站式等多样化方案。在车联网后装、智能音箱、儿童平板/故事机、知识机器人等领域市场占有率均第一，在汽车前装、电视/白电、智能客服等重点领域市场增速领先。未来，思必驰将以“云＋芯”战略方向为主，整合智能终端方案能力与全渠道智慧服务能力，形成All In One解决方案，进入酒店、地产、物流、养老、医疗、教育、安全、社区等更多行业。

据悉，在语音合成领域，目前思必驰已可以提供标准男女声、童声、名人合成音等，在最新推出的DUI平台Voice Shop中，提供100+特色的高自然度合成音，并为不同厂商提供个性化定制服务打造voice-IP。

我是郑铟，36氪超人学院创始学员，关注NLP、AR/VR、物联网、边缘计算、半导体，项目交流请加微信zhengbaobao097825，注明公司、职位、姓名。

超人学院相信早期生态推动社会变革，使命是为早期生态培养领袖人才，详情请戳36氪想要为进入创投圈的年轻人做一所「超人学院」，你来不来

发表于: 2019-01-292019-01-29 09:00:00
原文链接：https://kuaibao.qq.com/s/20190129A07PV900?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

语音识别＋歌声合成，思必驰的新产品想让普通人“读诗成曲”

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐