前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >微软歌声合成算法HIFISINGER论文解读

微软歌声合成算法HIFISINGER论文解读

原创
作者头像
三更两点
修改2021-01-20 10:26:52
1.7K0
修改2021-01-20 10:26:52
举报

论文题目:

  • HIFISINGER: TOWARDS HIGH-FIDELITY NEURAL SINGING VOICE SYNTHESIS

摘要

  • 高保真的歌声需要高的采样频率。高采样必定导致更宽的频率带和更长的波形序列,给歌声合成模型带来困难。
  • hifisinger是采用48kHZ的采样频率。它包括基于自然语音的fastSpeech和并行的声码器WaveGAN,在声学模型和声码器中引入了多尺度对抗训练,以改善歌唱建模。
  • sub-frequency GAN 来生成梅尔声谱图,并将80维的mel频率分成多个子带,每个模型都有一个鉴别器。可以以不同的长度粒度对歌声建模,以避免在具有固定长度的波形序列的单个鉴别器中发生的问题(例如,毛刺和振动)。
  • 解决高采样引起的长的波形的问题,multi-length GAN区分不同长度的波形序列。

前沿

  • 歌声合成系统就是根据乐谱信息合成高质量、富有情感的歌声。歌声合成是比语音合成具有更大的挑战和难度。之前的方法都是与原始音频相同的采样频率,合成出来的歌声的保真度不够。仅仅简单的增加采样,会导致以下问题:1.更高的采样频率会导致更宽更高的频率带,增加预测频谱的难度;2.高采样包含更多的波形采样点,更短的修复时长,增加了声码器的时域建模。
  • 合成梅尔声谱图加入了音高F0和(声音、静音的标注),选择window and hop size值

背景

  1. 歌声合成与语音合成:语音合成经历了拼接合成、参数化合成、神经网络合成、端到端语音合成(从文本或者拼音直接映射到语音)。经典的端到端合成算法,包括Fastspeech、Tacotron2。歌声合成比语音合成更难。因为歌声合成需要更多的参数(音符音高、时长等),合成的歌声音高范围也更广,元音持续时间也更长,声音更富有情感。

方法

  1. 一个经典的歌声合成系统包括声学模型,将乐谱转化为声学特征,和声码器,将声学特征转化为音频。
  2. HiFi-gan包括:声学模型(基于fastspeech)、声码器(WaveGAN)
  3. 乐谱输入
    1. 乐谱包括歌词、音符音高、音符时长
    2. 歌词处理:歌词到音素的标记;
    3. 音高:根据midi标准(https://www.midi.org/)将音符转化为音高ID;
    4. 时长:计算音符时长,并将其转化为作为梅尔声谱图的帧数
      1. 例如,音高ID对应于音符C4为60,约为262Hz。例如,在速度为120的情况下,一分钟有120拍,0.5秒钟有1拍。对于4/4,四分音符的持续时间为0.5秒。如果Mel频谱图的跳数大小为5ms,则四分音符对应于100帧。
  4. 结构图
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0B7s1Td8-1611050407842)(evernotecid://7F9DBD47-611B-471F-AF91-E0154E425709/appyinxiangcom/11012738/ENResource/p2816)]
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0B7s1Td8-1611050407842)(evernotecid://7F9DBD47-611B-471F-AF91-E0154E425709/appyinxiangcom/11012738/ENResource/p2816)]
  5. 声学模型和声码器 /* 1.声学模型是fastspeech,使用的是前馈转化器(FFT)作为基础的编码器和解码器。时长不是采用乐谱的时长,是预测出来的。预测器预测梅尔声谱图有多少帧。*/

SF-gan来建模宽频率(频域)

  • 1.使用对抗网络来提高梅尔声谱图的预测,避免过因均方误差或平均绝对误差产生度平滑的问题。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-v2MEL9lH-1611050407846)(evernotecid://7F9DBD47-611B-471F-AF91-E0154E425709/appyinxiangcom/11012738/ENResource/p2817)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-v2MEL9lH-1611050407846)(evernotecid://7F9DBD47-611B-471F-AF91-E0154E425709/appyinxiangcom/11012738/ENResource/p2817)]
  • x代表输入,y代表输出,Gam代表声学模型,Df代表鉴别器
  • 例如,对于80维的mel频谱图,我们将其分为低,中和高频段,其中最低的40维(0至40)为低频,中间频率(20至60),最高40维(40至80)为高频,每个频带与相邻频带重叠。

ML-gan来建模长波形(时域)

  • 它使用多个鉴别器区分不同长度的采样点。ML-gan降低合成更长波形模型的难度。能更好的抓取动态因素的时长。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-UyQYyGv8-1611050407847)(evernotecid://7F9DBD47-611B-471F-AF91-E0154E425709/appyinxiangcom/11012738/ENResource/p2818)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-UyQYyGv8-1611050407847)(evernotecid://7F9DBD47-611B-471F-AF91-E0154E425709/appyinxiangcom/11012738/ENResource/p2818)]
  • Gvoc代表声码器,Dt代表不同时长的鉴别器

其他设计

  1. 音高和声音和静音标注:声学模型还可以预测音高,使用乐谱中的原始音符音高作为快捷输入,让模型专注于学习剩余音高值。除此外,声音和静音的标注也帮助校正音高。
  2. Window/Hop size:窗口大小对于短时傅里叶变换作用很大,更大的音高用小窗,小音高用大窗。歌声音高比较高,需要选择小窗。window size大小为20ms。小的hop size导致声学特征更小、序列更长,声学模型更难预测,但是对于声码器是更好,毕竟更多的信息输入了。hop size设置为5ms。
  3. 大的可接受范围:声码器中使用更大的内核大小,以扩大接收范围以覆盖如此长的元音。

实验和结果

datasets

  1. 数据集是女歌手的,共6817个片段,每个片段3到10秒。随机选择340个验证,340个测试。
  2. 用工具Parselmouth来提取F0和V/UV标签,用[对齐工具](An hmm-based system for automatic segmentation and alignment of speech)来获取时长标签。
  3. mel频谱图和F0特征均都要进行标准化处理。

model config

  1. FastSpeech的编码器和解码器都包括6个FFT,每层节点3/384/1536。最后一个FFT模块 有线性层用于生成80维度的梅尔声谱,1维的音高(浮点数)一维的V/UV。声码器是基于waveNet的。
  2. SF-GAN (acoustic model)包括三个鉴别器,分别处理 low (0∼40), middle (20∼60) and high (40∼80),这种方法具有数据增强效果,并且还降低了计算复杂性。三个鉴别器结构相同,参数不同。每个鉴别器包括3个2D卷积层和ReLU激活函数,线性作为最终的输出。
  3. ML-GAN包括七个鉴别器分别为 0.25s, 0.5s, 0.75s,1.0s长度的。

训练和合成

  1. 声学模型训练了6w步,Adam优化器参数为(β1 = 0.9, β2 = 0.98, e =10^-9.
  2. 声码器训练了40w步,RAdam优化器,学习率为0.0001,并且每20w步衰减一半。

音质对比

1.

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mmWHz2dY-1611050407849)(evernotecid://7F9DBD47-611B-471F-AF91-E0154E425709/appyinxiangcom/11012738/ENResource/p2819)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mmWHz2dY-1611050407849)(evernotecid://7F9DBD47-611B-471F-AF91-E0154E425709/appyinxiangcom/11012738/ENResource/p2819)]

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 论文题目:
  • 摘要
  • 前沿
  • 背景
  • 方法
    • SF-gan来建模宽频率(频域)
      • ML-gan来建模长波形(时域)
        • 其他设计
        • 实验和结果
          • datasets
            • model config
              • 训练和合成
                • 音质对比
                相关产品与服务
                语音合成
                语音合成(Text To Speech,TTS)满足将文本转化成拟人化语音的需求,打通人机交互闭环。提供多场景、多语言的音色选择,支持 SSML 标记语言,支持自定义音量、语速等参数,让发音更专业、更符合场景需求。语音合成广泛适用于智能客服、有声阅读、新闻播报、人机交互等业务场景。
                领券
                问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档