前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >初音未来、洛天依、镜音......揭秘虚拟歌姬背后的大BOSS

初音未来、洛天依、镜音......揭秘虚拟歌姬背后的大BOSS

作者头像
腾讯产业互联网学堂1
发布2023-05-29 13:41:57
3880
发布2023-05-29 13:41:57
举报
文章被收录于专栏:云计算行业云计算行业

提到虚拟歌姬,你的第一反应是谁?

洛天依、初音未来、乐正绫、巡音、Gumi、言和、镜音、东方栀子......。(没上榜的记得评论区留言)

在二次元的世界里,虚拟歌姬是一个特殊的存在,他们不是"活人",但有粉丝、有流量、有作品,其影响力、待遇不亚于一个鲜活的网红IP。

以洛天依为例,她是全世界第一款中文声库和虚拟形象,也是首位登上中国主流电视媒体的虚拟歌手,与杨钰莹、周华健、王源等一众明星在春晚同台合唱和歌舞表演。

她们一步一步成长,不断给我们带来“一字一句的美妙体验”。而成就这种“美妙体验”的,正是得益于人工智能语音技术的发展。腾讯云AI是较早开始在AI领域布局研究和商业落地的,并基于腾讯在游戏、社交、移动支付、文娱等领域的优势,逐渐在计算机视觉、语音技术、自然语言处理等方面积累了强大的技术和市场影响力。

01

“hello,world”

1972年,从一个程序员对着电脑敲下第一句“hello world”开始,人类与人工智能的沟通,便从未停止。

那人类真能教会冰冷的AI,让它听懂我们的话语和想法吗?

在20年前,绝大部分人会持怀疑态度,但今天,AI已经渗透到生活、工作、娱乐、社会的方方面面。除了虚拟歌姬,大部分人对语音导航、智能音箱、语音播报、智能客服、语音输入法等语音产品已是如数家珍。

相较于单纯的语音合成,合成歌声是明显更复杂的,合成出来的声音不单单要追求自然,歌声还需要追求节奏,甚至是气息的感觉。在AI语音技术加持和一群超神级音乐人的调教下,虚拟歌姬有了媲美人类的演唱能力,必然是艺术与技术的结合才能产生经典作品。

在语音技术领域,我们可以清晰看到走在这个行业前端的企业给我们带来的越来越多的惊喜和希望。

以腾讯云AI的语音技术为例,可以提供业界领先的语音识别、语音合成等成熟服务,以超高识别率配合高拟真度的音色,真正实现“听明白、说清楚、能懂你”的人机交互体验。

虚拟歌姬的语音合成是语音技术应用的一个缩影。

在人工智能技术越发成熟的今天,越来越多的不可能正在变成可能,越来越多用传统的方式难以实现的事情现在正在一一变成现实,一个更宏观的人机语音交互世界正在加速构建。

02

芝麻开门

你的童年有没有过“芝麻开门,......”这样子喊上几句?即便没有回应,还是乐此不疲的念叨,潜意识里希望:门开了!

目前,主流的语音应用技术主要分为两块:语音识别和语音合成,在更细分的领域和能力上,类似声纹识别、声音定制、语音工坊等也都发展迅速。

简单来说,语音识别(ASR)是一项将人类的声音信号转化为文字的过程,而语音合成(TTS)则是将文本转化成拟人化语音。语音识别与合成在应用上正好打通了人机交互的闭环。具体来说:

人机沟通的基础之一,是语音识别。

机器深度学习的方式模仿了人类大脑的神经元,当处理的语言越来越多时,这种网络就可以逐渐理解语言。

在传统录音、直播质检和视频编辑领域,受限于人的工作效率和人力成本,只能抽检不能全检,视频字幕纯手工编辑,真实的工作质量难以评估,批量化的编辑难以持久。

腾讯云AI语音识别基于创新网络结构TLC-BLSTM,利用ATTENTION机制有效地对语音信号进行建模,通过Teacher-Student方式提升系统鲁棒性,对通用以及垂直领域下场景有领先业界的识别精度和效率,可以轻松实现超大规模录音质检、视频字幕自动生成和海量音视频理解。

经过微信、腾讯视频、王者荣耀等大流量产品的充分验证,在互联网、金融、教育、直播、短视频等领域,基于海量数据实现分场景优化,腾讯云AI积累了多行业的最佳实践,广泛应用于客服录音质检、视频字幕、直播质检、会议实时转写、语音输入法、搜索等场景。

让机器说话,是必然,也在超越。

很多喜欢看电子小说的朋友,对“听书”一定很熟悉,移动阅读因其便捷性逐渐成为主流阅读方式。很多内容平台在增强阅读体验方面,打破传统“看文字”的阅读方式,为用户提供文字语音朗读功能,通过“听书”让用户在休闲、驾车过程中依然可以获得高效的阅读体验。

从“看”到“听”的转变,除了带来更好的体验,甚至会彻底改变平台玩法和商业模式,也让用户对语音的依赖大大提高。

基于业界领先技术构建的腾讯云AI语音合成系统,支持中文、外语、方言,也可以合成中英混读语音,且可以自定义男声、女声、童声、语速、音量等属性,合成语音速度快、自然流畅、拟真度高。

能够符合有声阅读、智能客服、新闻播报、车载导航、游戏角色变声等多样的应用场景,让设备和应用轻松发声,人机语音交互效果更加逼真。

语音技术发展到今天,其应用能力已经媲美甚至超越人类平均水平。从历史视角看,不管是地理位置障碍还是语言障碍,它都将是促进和增强人与人、人与机器自然对话的强大工具。

在“云+AI”的产业互联网浪潮中,腾讯云AI将依托腾讯三大顶级人工智能实验室,持续助力客户深度挖掘语音技术的商业应用价值,让“芝麻开门”和星级迷航般的移动设备愿景走向现实。

AI体验,一步直达↓↓↓

扫码加入腾讯云大学学习交流群

或添加小助手微信:Tcloudedu777

学习了解更多业内精彩资讯

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-04-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯产业互联网学堂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1972年,从一个程序员对着电脑敲下第一句“hello world”开始,人类与人工智能的沟通,便从未停止。
相关产品与服务
语音合成
语音合成(Text To Speech,TTS)满足将文本转化成拟人化语音的需求,打通人机交互闭环。提供多场景、多语言的音色选择,支持 SSML 标记语言,支持自定义音量、语速等参数,让发音更专业、更符合场景需求。语音合成广泛适用于智能客服、有声阅读、新闻播报、人机交互等业务场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档