前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >HIFI-Gan:generative adversarial Networks for Efficient and high Fidelity speech synthesis

HIFI-Gan:generative adversarial Networks for Efficient and high Fidelity speech synthesis

作者头像
三更两点
发布2021-01-26 14:44:51
1.1K0
发布2021-01-26 14:44:51
举报

文章目录

  • 摘要
  • 前言
  • hifi-gan

摘要

提出HIFI-gan方法来提高采样和高保真度的语音合成。语音信号由很多不同周期的正弦信号组成,对于音频周期模式进行建模对于提高音频质量至关重要。其次生成样本的速度是其他同类算法的13.4倍,并且质量还很高。

前言

  1. 主流的语音合成大部分分为两个阶段:1)预测低分辨率的中间表示,例如梅尔声谱图或语言特征,从中间表示合成原始波形音频。HIFI-gan主要是解决第二阶段的问题,从梅尔声谱图到高保真度的波形文件。
  2. wavenet是一种自回归卷积神经网络,合成高质量的音频的效率低。
  3. HIFI-gan提出鉴别器,每个鉴别器有子鉴别器来生成一段固定周期的音频。

hifi-gan

  1. hifi-GAN:包括一个生成器两个鉴别器:尺度检测器,多周期检测器。
    1. 生成器是一个卷积神经网络,输入是梅尔频谱图,提升采样,直到输出帧数与原音频相同。
    Krz1Io3km82nYQs
    Krz1Io3km82nYQs
    1. 多接受融合,MRF模块返回多个残差块的输出总和。
    1. 鉴别器:识别长期依赖关系是音频建模的关键。
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2021-01-18 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 文章目录
  • 摘要
  • 前言
  • hifi-gan
相关产品与服务
语音合成
语音合成(Text To Speech,TTS)满足将文本转化成拟人化语音的需求,打通人机交互闭环。提供多场景、多语言的音色选择,支持 SSML 标记语言,支持自定义音量、语速等参数,让发音更专业、更符合场景需求。语音合成广泛适用于智能客服、有声阅读、新闻播报、人机交互等业务场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档