首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

直击WAIC2019现场:连接,进化与人工智能的新“头牌”

“如果结果不够好,那一定是还没有到最后。”

“您好,我是齐天大圣孙悟空!”一个孙悟空的声音在上海世博中心的场馆中响起。

别误会,这可不是孙悟空配音者出现在现场,这个酷似孙悟空的声音来自于智能语音企业标贝科技的一款语音合成互动产品——“你说我学”。而在场馆现场,除了孙悟空特色合成声音外,你还可以看到包括中国台湾女声小美、中文儿童冉冉等6个动漫IP形象,滑动到对应人物形象进行点击,说出你想要的话语,人物就会将话语用个性化声音表达出来。这一幕来自于8月29日在上海世博展馆举办的WAIC2019世界人工智能大会。

在人工智能行业飞速发展的如今,一个不争的事实的是,语音开始扮演场景连接器的新角色,通过赋能产品,成为了AI服务的最新供应商。可以理解为,在这个最接近未来的行业里,“一个好的声音,就是一门好生意”已经成为一个共识。

跑马圈地间,赛道新“头牌”已经出现。

一、智能语音的产业新「抓手」

智能语音的东风已来。

一组来自语音产业联盟白皮书的数据为证:人工智能行业在近几年的产业增长率平均在43%左右,2018年市场规模达200亿元,预计到2019年年末,整个人工智能行业规模将达到近300亿元。

而在这一组上扬曲线背后,智能语音的发展更为引人关注。作为如今人工智能赛道产业化程度相对成熟、产业规模较大的细分领域,2011年其整个市场规模只有6.3亿,到2017年整个智能语音市场规模已经超过百亿,整个行业的发展近乎呈现指数级增长。

市场是宏大的,实操是具体的。尽管如今各家在语音识别领域呈现出你追我赶的进击态势,但在如今的这股智能语音东风中,一个微不可查的趋势是,语音合成正在成为各家新的布局点。

“很多从事做语音识别的大牛现在转型做语音合成。以一些公司为例,它之前对合成的重视程度不是特别高,但从去年开始,重心逐渐转向合成”。一位业内人士告诉产业家。

时代趋势永远和个体行为相伴,事实确实如此。国外,Google系的Lyerbird推出了一套“只需一分钟的声音样本就能模仿任何人说话”的系统;去年,微软在其公有云平台上推出了语音合成定制服务产品Custom Voice。国内,标贝科技推出有370余种音库支撑的“声音超市”,为客户提供一整套的个语音合成解决方案;讯飞推出了“讯飞留声”,只需要10段的声音采集即可完成个人声音的复刻。

就当下而言,与语音识别、语义理解等智能语音交互的技术相比,语音合成技术的体系更为独立,也更被外界认为是有机会单独存在而无需做全栈的一个方向。

不难看到,人工智能行业正在驶向深水区。随着人工智能赛道更为个性化的产品的出现,对声音的要求不再是千篇一律,而是更加追求个性化和饱满度,以通过更好地连接场景来完善基于产品本身的服务。这也意味着,语音定制化已经成为了一个新的刚需。

二、「拆解」语音合成这张牌

事实上,相比于聚光灯下的语音识别、语义理解两项技术,语音合成更为“低调”。

低调背后是其相较于其他两种技术更为严苛的标准,“声音是日常沟通交流的重要载体,想要让大家在各种场景下都能享受到很好的声音体验,要让声音以假乱真,其苛求度非常高。”标贝科技联合创始人兼CTO李秀林说道。

他是语音合成行业的老兵,见证了近年来语音合成技术在国内从无到有,不断发展的每个阶段,“怎么让声音更有温度,更有灵性地与产品结合,是一个永远需要探讨的命题。”

从时间轴来看,追溯语音合成技术还要回到上世纪90年代,彼时科大讯飞是最主要的玩家。早期的语音合成技术应用很受局限,主要应用在汽车导航、银行叫号、医院叫号和车站播报系统,可以理解为,那时候的合成技术处于萌芽期。

合成技术分两种,第一种称为拼接法。把语音里面所有的语料基础片段都录好,再根据需要,择取语音单元,并拼接成具体话语,这种方法需要大量的语音录制。第二种称为参数法。基于有限的语料数据通过参数模型训练,合成新语段,参数法的优势在于对录音数量要求较少,几千句话就能出一个合成效果。

“无论客户用哪种合成技术,都离不开专业的语音数据服务。”标贝科技数据团队负责人表示。可以理解为,在语音合成的赛道上,语音数据是一切服务的“基石”,唯有基于此才可以铸造语音合成“更高层建筑”。

但这并不是全部。“尽管都认识到语音合成的重要性,但真正实现可落地的产品还是很少。”一位常年关注人工智能赛道的人告诉我们。

事实确实如此。相比于技术的研究,从实验室到商用阶段的跨越才是真正考量一家企业能否适应趋势的最佳标准。在AIOT和物联网不断发展的当下,人们需要的是可视化的声音,进而辅助不断涌现的新设备,打造更具生命力、温度的智能硬件。

换个角度理解,对语音合成技术而言,数据、场景、产品、服务,四位一体,相互递进,相互成就,缺一不可。语音连接场景,场景构建服务。

在这个被新置于大众主流认知的跑道上,有人已出发,有人在观望。

三、技术驱动的背后

时代正在变化。

毫无疑问,AI、互联网与5G的结合,将加快万物互联时代的到来。对产业而言,各方紧密协作,更需要强大且不断迭代的基础服务。对企业而言更应该找准自己的定位,建立自身壁垒,为产业发展提供基础支持,构建基于自身有力的竞争优势。

在人工智能不断跃进的当下,进化将是存活下来的唯一机会。

但我们更应该给予关注的是,在不断涌现出来的、改变时代节奏的新产品、新趋势背后,像标贝科技等在技术领域十年如一日的挖井人。

从海量数据收集到技术模型搭建,从前端产品设计到后端运维服务,每一个流畅的环节背后都有着成千上万次的调试和计算,每一个新体验、新需求背后都是一个个从0到1的算法和研究。

吃水不忘挖井人,时代终将有所馈赠。一如那句话,“如果没有最好的结果,那一定是还没有到最后。”应如是。

撰文|裴一多

文章来源砍柴网

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190902A0IFRW00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券