学习
实践
活动
工具
TVP
写文章

语音识别系列︱paddlehub的开源语音识别模型测试(二)

---- 文章目录 1 paddlehub的安装 2 几款模型 3 三款语音识别模型实验 3.1 deepspeech2_aishell - 0.065 3.2 u2_conformer_wenetspeech - 0.087 3.3 u2_conformer_aishell - 0.055 4 文本-标点恢复 5 语音识别 + 标点恢复 案例 ---- 1 paddlehub的安装 先把paddlepaddle hub install u2_conformer_wenetspeech hub install u2_conformer_aishell 模型三个链接: u2_conformer_aishell deepspeech2 deepspeech2_aishell使用了DeepSpeech2离线模型的结构,模型主要由2层卷积网络和3层GRU组成,并在中文普通话开源语音数据集AISHELL-1进行了预训练,该模型在其测试集上的 u2_conformer_aishell在中文普通话开源语音数据集AISHELL-1进行了预训练,该模型在其测试集上的CER指标是0.055257。

15320

01 语音识别概述

• CHiME-5/6:聚会聊天,需申请 中文数据 • THCHS-30,30小时,开源(http://openslr.org/18/) • HKUST,150小时,电话对话,LDC版权 • AIShell -1:178小时,开源(http://openslr.org/33/) • AIShell-2:1000小时,开源需申(http://www.aishelltech.com/aishell_2)• aidatatang

77020
  • 广告
    关闭

    腾讯云精选爆品盛惠抢购

    腾讯云精选爆款云服务器限时体验20元起,云数据库19.9元/年起,还有更多热门云产品满足您的上云需求

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    glusterfs问题诊断方法

    trusted.glusterfs.pathinfo -e text /data/glusterfs_speech_04_v6/11085164/espnet/hello_input2/espnet_aishell /' from absolute path names # file: data/glusterfs_speech_04_v6/11085164/espnet/hello_input2/espnet_aishell POSIX(/speech_v6/data2/brick):node.hello.lan:/speech_v6/data2/brick/11085164/espnet/hello_input2/espnet_aishell <POSIX(/speech_v6/data2/brick):test-node:/speech_v6/data2/brick/11085164/espnet/hello_input2/espnet_aishell ai-storage-center-prd-10-194-39-6.v-bj-4.hello.lan:/speech_v6/data2/brick/11085164/espnet/hello_input2/espnet_aishell

    11720

    依图要修AI语音双学位,左手摸底考第一名成绩单,右手开放平台方案

    No.1成绩单 依图这次秀出的入局成绩单,源自全球最大的中文开源数据库AISHELL-2。 该数据库表现中,依图短语音听写的字错率(CER)为3.71%,比之原最好成绩还好20%,大幅刷新纪录。 语音领域玩家想必对AISHELL-2并不陌生。 ? 这是AISHELL Foundation和希尔贝壳宣布的开源数据库,数据规模达1000小时,是目前全球最大的中文开源数据库。 AISHELL-2由1991名来自中国不同口音区域的发言人参与录制,经过专业语音校对人员转写标注,通过了严格质量检验,数据库文本正确率在96%以上,录音文本涉及唤醒词、语音控制词、智能家居、无人驾驶、工业生产等 其中,在AISHELL2-2018A-EVAL数据集中,依图的识别准确率达96.29%,字错率3.71%,比原最好成绩高出20%。 但成绩单之余,或许你也好奇:依图为啥要进语音领域?

    44620

    语音识别系列︱paddlespeech的开源语音识别模型测试(三)

    预训练模型包括: 模型 语言 采样率 conformer_wenetspeech zh 16k conformer_online_multicn zh 16k conformer_aishell zh 16k conformer_online_aishell zh 16k transformer_librispeech en 16k deepspeech2online_wenetspeech zh 16k deepspeech2offline_aishell zh 16k deepspeech2online_aishell zh 16k deepspeech2offline_librispeech en

    32220

    实战:基于tensorflow 的中文语音识别模型 | CSDN博文精选

    (实际上是代码功力太差…), 语料采用Aishell 的170h语音. {"audio_filepath": "/media/nlp/23ACE59C56A55BF3/wav_file/aishell/data_aishell/wav/train/S0002/BAC009S0002W0122 .wav", "duration": 5.999, "text": "而对楼市成交抑制作用最大的限购"} 您可以通过example/aishell/run_data.sh 脚本中的第一部分生成该文件,也可以修改参数后运行 data/aishell/aishell.py 来生成,同时若指定目录不包含指定文件,则自动下载语料并解压。

    4.2K10

    飞桨开发者又出新工具!让AI也能听懂你的话

    Windows 10 or Ubuntu 18.04 源码地址:https://github.com/yeyupiaoling/PPASR 模型下载 本项目在各个公开数据集上的字错率见下表: 说明:aishell dataset/test.wav 消耗时间:132, 识别结果: 近几年不但我用书给女儿儿压岁也劝说亲朋不要给女儿压岁钱而改送压岁书, 得分: 94 数据准备 本项目使用了公开的中文普通话语音数据集,分别是Aishell cd download_data/ python aishell.py python free_st_chinese_mandarin_corpus.py python thchs_30.py python 我把aishell.py的文件单独下载,然后替换download()函数,再执行该程序,就会自动解压文件文本生成数据列表。 # 把这行代码 filepath = download(url, md5sum, target_dir) # 修改为 filepath = "D:\\Download\\data_aishell.tgz

    20920

    基于 CIF 的协作解码,用于端到端上下文语音识别(computer science)

    在香港科技大学/AISHELL-2命名实体丰富评价集上进行评价,与强基线相比,我们的方法使相对命名实体字符错误率(CER)降低了8.83%/21.13%,相对命名实体字符错误率(NE-CER)降低了40.14% Evaluated on the named entity rich evaluation sets of HKUST/AISHELL-2, our method brings relative character

    41130

    依图做语音了!识别精度创中文语音识别新高点

    依图语音识别算法在全球最大开源中文数据库AISHELL-2上词错率仅3.71%,比原业内领先者提升约20%,大幅刷新现有纪录。比对各家语音识别算法,当今智能语音战场,英雄唯讯飞与依图尔? 技术上,在全球最大的中文开源数据库AISHELL-2中,依图短语音听写的字错率(CER)达到3.71%[1],相比原业内领先者提升约20%,大幅刷新现有纪录。 在全球最大中文开源数据库AISHELL-2[2] 的三个测试子集,以及来自第三方的近场口音测试集(Accent)、近场安静聊天测试集(Chat)、语音节目测试集、电话测试集、远场测试集等测试场景中,依图均处于业界领先水平 其中,在AISHELL2的-2018A-EVAL数据集中,依图的识别准确率高达96.29%,字错率仅为3.71%,领先第二名约20%。 注释 [1] 一般在英文语音识别中用“词错率”(WER),因为最小单元是词;中文语音识别一般使用“字错率”(CER),因为最小单元是字. [2] AISHELL-2是AISHELL Foundation

    1K30

    一句话复制你的音色:快手单样本语音转换研究入选ICASSP 2021

    实验对比 文章中对比了几种当前最优的基于单样本的语音转换网络,基线模型和文章中提出的 SAVC 模型均使用 Aishell-1 训练集的 340 人中文数据作为训练数据集;选择 Aishell-1 测试集中的集外说话人作为测试时使用的原始说话人和目标说话人 这可能是因为 Aishell-1 的训练集中女性数据更多,性别不平衡导致 GST-VC 表征不同的目标说话人能力有区别。 这是因为 Aishell-1 语料库是语音识别数据集,由移动电话记录。音频中存在许多噪声,例如混响,信道噪声等,这些均不利于 Griffin Lim 算法从频谱参数中预测相位,导致合成语音质量变差。

    32240

    CIF:基于神经元整合发放的语音识别新机制

    基于CIF的模型不仅有效地支持了在线识别、边界定位及声学 Embedding 提取,而且在两个中文基准语音识别集(HKUST、AISHELL-2)上创造了SOTA的性能。 如图3所示,在中文朗读数据集AISHELL-2上,由于输出标签间的声学边界较为清楚,基于CIF的模型获得了突出的性能表现,显著地超过了Chain模型的性能,创造了state-of-the-art的字错误率结果 在中文朗读数据集AISHELL-2上,CIF模型与已发表模型的字错误率对比 ? 图4. 在中文电话数据集HKUST上,CIF模型与已发表模型的字错误率对比 ----

    82420

    基于PaddlePaddle实现的DeepSpeech2端到端中文语音识模型

    https://github.com/yeyupiaoling/PaddlePaddle-DeepSpeech 模型下载 数据集 卷积层数量 循环神经网络的数量 循环神经网络的大小 测试集字错率 下载地址 aishell mirrors.aliyun.com/pypi/simple/ 数据准备 在download_data目录下是公开数据集的下载和制作训练数据列表和词汇表的,本项目提供了下载公开的中文普通话语音数据集,分别是Aishell cd download_data/ python aishell.py python free_st_chinese_mandarin_corpus.py python thchs_30.py python 然后把download()函数改为文件的绝对路径,如下,我把aishell.py的文件单独下载,然后替换download()函数,再执行该程序,就会自动解压文件文本生成数据列表。 # 把这行代码 filepath = download(url, md5sum, target_dir) # 修改为 filepath = "D:\\Download\\data_aishell.tgz

    45310

    10 端到端语音识别

    . • 实践:有GPU机器的话,可以跑一下egs下面的aishell1/2 • Speech Transformer: https://github.com/kaituoxu/Speech-Transformer

    93520

    公共空间中社交机器人的稳健性改进(Sound)

    We use the AiShell-1 Chinese speech corpus and the Kaldi ASR toolkit for evaluations.

    23420

    找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了,腾讯游戏知几AI团队和西工大ASLP组联合出品

    Aishell 数据集 我们使用 Aishell 178 小时训练集作为有监督数据进行训练,分别对比了使用 FBank 特征、Wav2vec 2.0 BASE/LARGE 模型特征和 HuBERT BASE 同时,我们额外对比了使用 WenetSpeech train_l 集 1 万小时中文数据进行训练时,其在 Aishell 测试集上的效果。 表 1:不同模型在 Aishell 测试集上的字错误率(CER%)结果 根据表 1 结果可以看到,通过结合上万小时无监督数据训练的预训练模型,下游 ASR 任务效果均有显著提升。

    43830

    05 基于GMM-HMM的语音识别系统(单音素、三音素)

    blob/master/egs/yesno/s5/run.sh 单音素三音素系统Demo: https://github.com/kaldi-asr/kaldi/blob/master/egs/aishell

    1.3K00

    PPASR流式与非流式语音识别

    本项目使用的环境: Anaconda 3 Python 3.7 PaddlePaddle 2.2.0 Windows 10 or Ubuntu 18.04 模型下载 数据集 使用模型 测试集字错率 下载地址 aishell 除了aishell数据集按照数据集本身划分的训练数据和测试数据,其他的都是按照项目设置的固定比例划分训练数据和测试数据。 cd download_data/ python aishell.py python free_st_chinese_mandarin_corpus.py python thchs_30.py python 然后把download()函数改为文件的绝对路径,如下,我把aishell.py的文件单独下载,然后替换download()函数,再执行该程序,就会自动解压文件文本生成数据列表。 # 把这行代码 filepath = download(url, md5sum, target_dir) # 修改为 filepath = "D:\\Download\\data_aishell.tgz

    15010

    基于Kersa实现的声纹识别

    20170001_1-OS/20170001P00001I0002.wav 1 dataset/ST-CMDS-20170001_1-OS/20170001P00001I0003.wav 1 1、本项目默认是支持Aishell Aishell:http://www.openslr.org/resources/33 Free ST-Chinese-Mandarin-Corpus:http://www.openslr.org/resources

    1.4K61

    解密:依图如何一年实现语音识别指标超巨头玩家

    依图测试过程中涉及到的公开测试数据集包括: 全球最大中文普通话数据库 AISHELL1、AISHELL2(采用 iOS 系统,Android、Mic 性能类似,省略)、中文语音语料 THCHS30、PrimeWord 比如,在公开数据集 AISHELL-2 中,依图短语音听写的字错率为 3.71%,领先原业内领军者约 20%。

    77630

    基于Pytorch实现的MASR中文语音识别

    zh_lm/zh_giga.no_cna_cmn.prune01244.klm 语音数据集 在data目录下是公开数据集的下载和制作训练数据列表和字典的,本项目提供了下载公开的中文普通话语音数据集,分别是Aishell cd data/ python aishell.py python free_st_chinese_mandarin_corpus.py python thchs_30.py 如果开发者有自己的数据集,

    1.9K86

    扫码关注腾讯云开发者

    领取腾讯云代金券