首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

沙龙回顾|AI产业沙龙—语音与音乐技术在字节跳动平台的应用成功举办!

近年来,随着深度学习的发展和元宇宙虚拟人等概念的兴起,AI技术逐渐成为热门的研究课题。2022年冬奥会期间,一首“我只是想要一只冰墩墩啊”火遍各大视频平台,其背后使用的正是字节跳动智能创作-语音与音乐智能团队(SAMI)提供的技术,为了满足各端场景的延迟、保真度等需求,字节跳动SAMI团队在技术方面做了诸多探索,并致力于实现海量音色的高保真合成,将高质量的语音/歌声呈现到全球亿万用户的耳边。

2022年3月3日,由CCF语音对话与听觉专委会中国人工智能产业发展联盟(AIIA)评估组字节跳动科技有限公司-智能创作语音团队语音之家北京希尔贝壳科技有限公司共同主办的【语音之家】AI产业沙龙—语音与音乐技术在字节跳动平台的应用成功举办,会议直播间热度1500+,累计获赞2000+,突破了时间与地点的限制,将干货直接带给开发者与关注者。

下面让我们一起来回顾技术分享中的精彩细节。

1

李乃寒

AI歌唱让大众音乐创作更轻松

李乃寒老师主要分享了两部分内容,第一部分是歌唱合成,偏向于算法,主要是介绍了SAMI团队是如何打造出一个高自然度的歌唱合成系统,能做到让 AI 像人一样的去唱歌;第二部分是写词成曲,偏向于业务,主要介绍了基于歌唱合成能力的C 端落地方案。

关于整个歌唱合成的模型框架分为两步,第一步是利用声学模型把乐谱转化为频谱;第二步再用一个声码器,将频谱转化成音频,就是可以播放的音频文件。首先详细介绍了乐谱信息,主要分为旋律和歌词;其次就声学模型介绍了fastspeech以及fastspeech2结构上的相关技术要点以及对应的探索结果;声码器则主要采用GAN的方式,在此基础上简述了歌曲合成与语音合成的技术区别,并就一些常见问题,如断音现象做了改进说明。

关于写词成曲,目的是能够降低大众用户歌唱合成的创作门槛。前文介绍了乐谱主要包含旋律和歌词,旋律的创作对于大众有着非常高的门槛,而歌词的创作相对简单,每个人都可以进行文字创作。写词成曲的具体方法就是,为用户提供一些耳熟能详的旋律,用户可以输入任意的歌词,算法会根据用户输入的歌词语义,对其进行自动的分词,然后分句,再根据每句的字数填入到对应的旋律当中,使之成为一个完整的乐谱,接着就可以使用AI模型,对其进行演唱。

2

陈远哲

AI变声的应用探索与技术原理

陈远哲老师首先讲解了AI变声的定义,AI变声也叫做“音色转换”或者“声音转换”,可以将音色改变为指定发言人的音色,然后保持其语义不变,起到“柯南领结”的效果。其应用场景非常丰富,包括内容生产、个性化定制、实时交互等场景。另外也强调了音色转换的安全合规问题,需要对其使用做一些限制,防止在违背他人意愿的情况下虚构或者伪造他人的声音。

然后,就音色转换的不同阶段做了简要概述,该技术在满足两个基本要求,即内容可懂和音色相似的基础上要想推进到商业化程度,还需要模型具备更高的表现力,如自然逼真、音质高和高鲁棒性,除此之外可做的技术延伸包括对合成音频韵律以及情感的控制、少或零样本学习、口音转换、歌唱转换以及实时变声等。

接着简要介绍了基于深度学习的Voice Conversion框架原理,在此基础上详细介绍了其模型改进方案 SAMI VC框架,即加入一些成熟的子模块,如对数据进行增广和扰动、音频加噪、引入ASR Encoder和基于自监督训练的Encoder代替out Encoder等。在Decoder端,详细介绍了如何解决频谱过平滑的问题,从而使音频的音质更清澈,合成的信噪比得以提升。

之后就并行变声和实时变声场景,歌唱转换与语音转换以及语音转换与语音合成结合等方面的关键技术点做了概述并给出了相关解决方案。最后就语音转换的未来发展趋势做了总结,主要围绕在特定条件、少样本或零样本、Noisy-to-Noisy以及多模态场景。

3

田乔

神经网络声码器的应用探索

田乔老师重点讲解了神经网络声码器在语音跟歌声上的应用,功能实际上是将频谱特征增强并恢复出相位信息,生成最后的时域波形采样点。神经网络声码器区别于DSP 声码器的一个较大特性就是能增强合成的频谱特征,而设计一个比较理想的neural Vocoder,大概需要四点:

1、需要一个比较好的音色还原度,以及音质的保障。

2、在落地的时候,需要考虑合成速度。

3、对于部署来说,需要相当高的性能,合成速度是关键指标。

4、有很强的可解释性和可操控性。

neural Vocoder的学术进展从最经典的自回归的WaveNet到轻量级的各种变种,到最后大规模落地GAN Vocoder。GAN Vocoder相比于之前自回归的模型,它使用了一种对抗学习,可以代替之前的teacher force或者是density estimation,能简单规避尚未学习的困难,其次实现了采样点级别的一个loss和帧级别的loss,能促进学习。像teacher force等模型,是在时域采样点上进行估计,鲁棒性偏差,频谱上进行loss又会存在一些竞争关系,导致模型趋于过平滑,对抗学习采样点就可以规避这种问题,从而提升模型对频谱的增强能力,但是其缺点就是训练trick,包括对long-term的捕捉较差,结果上就会出现如断音、Glith现象。基于以上问题,在GAN vocoder落地时,就会做一些技术调整,来解决如断音现象、海量发音人以及查看zero sho效果等等问题。最后分享了SAMI团队 在Vocoder技术的其他应用场景上的一些探索,包括像Clone、转化和音频修复,后续还有进一步的探索应用,比如高保真修音、美化、甚至于一些超轻量级的neural codec的一些工作。

至此,本期沙龙圆满结束。今后,语音之家将持续为大家带来干货满满的技术分享,期待与大家再次相见。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20220311A089KR00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券