/github.com/fishaudio/fish-speech MockingBird 中文 支持普通话并使用多种中文数据集进行测试:aidatatang_200zh, magicdata, aishell3..., biaobei, MozillaCommonVoice, data_aishell 等 PyTorch 适用于 pytorch,已在 1.9.0 版本(最新于 2021 年 8 月)中测试,GPU
(aishell1 表示 AISHELL-1 测试集,aishell2 表示 AISHELL-2 iOS 测试集,ws_net 和 ws_meeting 分别表示 WenetSpeech 的 Internet
Whisper-Finetune 使用环境: Anaconda 3 Python 3.8 Pytorch 1.12.1 Ubuntu 18.04 GPU A100-PCIE-40GB*1 项目主要程序介绍 aishell.py...:制作AIShell训练数据。...本项目提供了一个制作AIShell数据集的程序aishell.py,执行这个程序可以自动下载并生成如下列格式的训练集和测试集,注意: 这个程序可以通过指定AIShell的压缩文件来跳过下载过程的,如果直接下载会非常慢...,可以使用一些如迅雷等下载器下载该数据集,然后通过参数--filepath指定下载的压缩文件路径,如/home/test/data_aishell.tgz。...[ { "audio": { "path": "dataset/audio/data_aishell/wav/test/S0764/BAC009S0764W0489
基于CIF的模型不仅有效地支持了在线识别、边界定位及声学 Embedding 提取,而且在两个中文基准语音识别集(HKUST、AISHELL-2)上创造了SOTA的性能。...如图3所示,在中文朗读数据集AISHELL-2上,由于输出标签间的声学边界较为清楚,基于CIF的模型获得了突出的性能表现,显著地超过了Chain模型的性能,创造了state-of-the-art的字错误率结果...在中文朗读数据集AISHELL-2上,CIF模型与已发表模型的字错误率对比 ? 图4. 在中文电话数据集HKUST上,CIF模型与已发表模型的字错误率对比 ----
• CHiME-5/6:聚会聊天,需申请 中文数据 • THCHS-30,30小时,开源(http://openslr.org/18/) • HKUST,150小时,电话对话,LDC版权 • AIShell...-1:178小时,开源(http://openslr.org/33/) • AIShell-2:1000小时,开源需申(http://www.aishelltech.com/aishell_2)• aidatatang
.tar.bz2 tar xvf vits-icefall-zh-aishell3.tar.bz2 rm vits-icefall-zh-aishell3.tar.bz2 [root@owlvtech:.../vits-icefall-zh-aishell3/model.onnx \ > --vits-lexicon=..../vits-icefall-zh-aishell3/tokens.txt \ > --tts-rule-fsts=./vits-icefall-zh-aishell3/phone.fst,..../szh-aishell3/model.onnx --vits-lexicon=./vits-icefall-zh-aishell3/lexicon.txt --vtts-rule-fsts=..../vits-icefall-zh-aishell3/phone.fst,./vits-icefall-zh-aishell3/da10 --output-filename=.
Windows 10 or Ubuntu 18.04 源码地址:https://github.com/yeyupiaoling/PPASR 模型下载 本项目在各个公开数据集上的字错率见下表: 说明:aishell...dataset/test.wav 消耗时间:132, 识别结果: 近几年不但我用书给女儿儿压岁也劝说亲朋不要给女儿压岁钱而改送压岁书, 得分: 94 数据准备 本项目使用了公开的中文普通话语音数据集,分别是Aishell...cd download_data/ python aishell.py python free_st_chinese_mandarin_corpus.py python thchs_30.py python...我把aishell.py的文件单独下载,然后替换download()函数,再执行该程序,就会自动解压文件文本生成数据列表。...# 把这行代码 filepath = download(url, md5sum, target_dir) # 修改为 filepath = "D:\\Download\\data_aishell.tgz
实验对比 文章中对比了几种当前最优的基于单样本的语音转换网络,基线模型和文章中提出的 SAVC 模型均使用 Aishell-1 训练集的 340 人中文数据作为训练数据集;选择 Aishell-1 测试集中的集外说话人作为测试时使用的原始说话人和目标说话人...这可能是因为 Aishell-1 的训练集中女性数据更多,性别不平衡导致 GST-VC 表征不同的目标说话人能力有区别。...这是因为 Aishell-1 语料库是语音识别数据集,由移动电话记录。音频中存在许多噪声,例如混响,信道噪声等,这些均不利于 Griffin Lim 算法从频谱参数中预测相位,导致合成语音质量变差。
源码地址:Whisper-Finetune使用环境:Anaconda 3Python 3.8Pytorch 1.13.1Ubuntu 18.04GPU A100-PCIE-40GB*1项目主要程序介绍aishell.py...:制作AIShell训练数据。...aishell_test为AIShell的测试集,test_net和test_meeting为WenetSpeech的测试集。...本项目提供了一个制作AIShell数据集的程序aishell.py,执行这个程序可以自动下载并生成如下列格式的训练集和测试集,注意: 这个程序可以通过指定AIShell的压缩文件来跳过下载过程的,如果直接下载会非常慢...,可以使用一些如迅雷等下载器下载该数据集,然后通过参数--filepath指定下载的压缩文件路径,如/home/test/data_aishell.tgz。
---- 文章目录 1 paddlehub的安装 2 几款模型 3 三款语音识别模型实验 3.1 deepspeech2_aishell - 0.065 3.2 u2_conformer_wenetspeech...- 0.087 3.3 u2_conformer_aishell - 0.055 4 文本-标点恢复 5 语音识别 + 标点恢复 案例 ---- 1 paddlehub的安装 先把paddlepaddle...hub install u2_conformer_wenetspeech hub install u2_conformer_aishell 模型三个链接: u2_conformer_aishell deepspeech2...deepspeech2_aishell使用了DeepSpeech2离线模型的结构,模型主要由2层卷积网络和3层GRU组成,并在中文普通话开源语音数据集AISHELL-1进行了预训练,该模型在其测试集上的...u2_conformer_aishell在中文普通话开源语音数据集AISHELL-1进行了预训练,该模型在其测试集上的CER指标是0.055257。
blob/master/egs/yesno/s5/run.sh 单音素三音素系统Demo: https://github.com/kaldi-asr/kaldi/blob/master/egs/aishell
trusted.glusterfs.pathinfo -e text /data/glusterfs_speech_04_v6/11085164/espnet/hello_input2/espnet_aishell.../' from absolute path names # file: data/glusterfs_speech_04_v6/11085164/espnet/hello_input2/espnet_aishell...POSIX(/speech_v6/data2/brick):node.hello.lan:/speech_v6/data2/brick/11085164/espnet/hello_input2/espnet_aishell...aishell...ai-storage-center-prd-10-194-39-6.v-bj-4.hello.lan:/speech_v6/data2/brick/11085164/espnet/hello_input2/espnet_aishell
https://github.com/yeyupiaoling/PaddlePaddle-DeepSpeech 模型下载 数据集 卷积层数量 循环神经网络的数量 循环神经网络的大小 测试集字错率 下载地址 aishell...mirrors.aliyun.com/pypi/simple/ 数据准备 在download_data目录下是公开数据集的下载和制作训练数据列表和词汇表的,本项目提供了下载公开的中文普通话语音数据集,分别是Aishell...cd download_data/ python aishell.py python free_st_chinese_mandarin_corpus.py python thchs_30.py python...然后把download()函数改为文件的绝对路径,如下,我把aishell.py的文件单独下载,然后替换download()函数,再执行该程序,就会自动解压文件文本生成数据列表。...# 把这行代码 filepath = download(url, md5sum, target_dir) # 修改为 filepath = "D:\\Download\\data_aishell.tgz
(实际上是代码功力太差…), 语料采用Aishell 的170h语音....{"audio_filepath": "/media/nlp/23ACE59C56A55BF3/wav_file/aishell/data_aishell/wav/train/S0002/BAC009S0002W0122....wav", "duration": 5.999, "text": "而对楼市成交抑制作用最大的限购"} 您可以通过example/aishell/run_data.sh 脚本中的第一部分生成该文件,也可以修改参数后运行...data/aishell/aishell.py 来生成,同时若指定目录不包含指定文件,则自动下载语料并解压。
效果SOTA,推理效率最高提10倍 最终,在学术界常用的中文识别评测任务AISHELL-1、AISHELL-2及WenetSpeech等测试集上, Paraformer-large模型均获得了最优效果。...在AISHELL-1上,Paraformer在目前公开发表论文中,为性能(识别效果&计算复杂度)最优的非自回归模型,且Paraformer-large模型的识别准确率远远超于目前公开发表论文中的结果(dev
Aishell 数据集 我们使用 Aishell 178 小时训练集作为有监督数据进行训练,分别对比了使用 FBank 特征、Wav2vec 2.0 BASE/LARGE 模型特征和 HuBERT BASE...同时,我们额外对比了使用 WenetSpeech train_l 集 1 万小时中文数据进行训练时,其在 Aishell 测试集上的效果。...表 1:不同模型在 Aishell 测试集上的字错误率(CER%)结果 根据表 1 结果可以看到,通过结合上万小时无监督数据训练的预训练模型,下游 ASR 任务效果均有显著提升。
本项目使用的环境: Anaconda 3 Python 3.7 PaddlePaddle 2.2.0 Windows 10 or Ubuntu 18.04 模型下载 数据集 使用模型 测试集字错率 下载地址 aishell...除了aishell数据集按照数据集本身划分的训练数据和测试数据,其他的都是按照项目设置的固定比例划分训练数据和测试数据。...cd download_data/ python aishell.py python free_st_chinese_mandarin_corpus.py python thchs_30.py python...然后把download()函数改为文件的绝对路径,如下,我把aishell.py的文件单独下载,然后替换download()函数,再执行该程序,就会自动解压文件文本生成数据列表。...# 把这行代码 filepath = download(url, md5sum, target_dir) # 修改为 filepath = "D:\\Download\\data_aishell.tgz
. • 实践:有GPU机器的话,可以跑一下egs下面的aishell1/2 • Speech Transformer: https://github.com/kaituoxu/Speech-Transformer
预训练模型包括: 模型 语言 采样率 conformer_wenetspeech zh 16k conformer_online_multicn zh 16k conformer_aishell zh...16k conformer_online_aishell zh 16k transformer_librispeech en 16k deepspeech2online_wenetspeech zh 16k...deepspeech2offline_aishell zh 16k deepspeech2online_aishell zh 16k deepspeech2offline_librispeech en
20170001_1-OS/20170001P00001I0002.wav 1 dataset/ST-CMDS-20170001_1-OS/20170001P00001I0003.wav 1 1、本项目默认是支持Aishell...Aishell:http://www.openslr.org/resources/33 Free ST-Chinese-Mandarin-Corpus:http://www.openslr.org/resources
领取专属 10元无门槛券
手把手带您无忧上云