前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >[语音识别] 01 语音识别概述

[语音识别] 01 语音识别概述

作者头像
MachineLP
发布2020-03-25 14:29:14
4.1K0
发布2020-03-25 14:29:14
举报
文章被收录于专栏:小鹏的专栏小鹏的专栏

语音识别概述

数据/语料库

英文数据 • TIMIT:音素识别,LDC版权 • WSJ:新闻播报,LDC版权 • Switchboard:电话对话,LDC版权 • Aurora4,鲁棒语音识别(WSJ加噪)(http://aurora.hsnr.de/aurora-4.html)• Librispeech:有声读物,1000小时,开源(http://openslr.org/12/) • AMI:会议,开源(http://openslr.org/16/) • TED-LIUM:演讲,开源(http://openslr.org/19/) • CHiME-4:平板远讲,需申请 • CHiME-5/6:聚会聊天,需申请

中文数据 • THCHS-30,30小时,开源(http://openslr.org/18/) • HKUST,150小时,电话对话,LDC版权 • AIShell-1:178小时,开源(http://openslr.org/33/) • AIShell-2:1000小时,开源需申(http://www.aishelltech.com/aishell_2)• aidatatang_200zh,200小时,开源(http://openslr.org/62/) • MAGICDATA,755小时,开源(http://openslr.org/68/)

工具包

• HTK: http://htk.eng.cam.ac.uk/ (c) • Kaldi: http://kaldi-asr.org/ (c++, python)【推荐】 • ESPNet: https://github.com/espnet/ (pytorch based) • Lingvo: https://github.com/tensorflow/lingvo.git (Tensorflow based)

推荐阅读: Daniel Jurafsky and James H. Martin, Speech and language processing: An introduction to natural language processing, computational linguistics, and speech recognition, Second Edition, Prentice Hall, 2008 (或第三版)

• Xuedong Huang, Alex Aceoro, Hsiao-Wuen Hon, Spoken Language Processing: A guide to theory, algorithm, and system development, Prentice Hall, 2011

• 韩继庆、张磊、郑铁然,《语音信号处理》,清华大学出版社• 赵力,《语音信号处理》,机械工业出版社

• Lawrence Rabiner, Biing-Hwang Juang, Fundamentals of Speech Recognition, Prentice Hall, 1993

• Dong Yu and Li Deng, Automatic Speech Recognition - A Deep Learning Approach, Springer, 2014

• 俞栋、邓力著,俞凯、钱彦旻译,《解析深度学习:语音识别实践》,电 子工业出版社

• 李航,《统计学习方法》(第二版),清华大学出版社

• Automatic Speech Recognition (ASR) 2018-2019 Lectures, School of Informatics, University of Edinburgh,https://www.inf.ed.ac.uk/teaching/courses/asr/lectures-2019.html

• Speech Recognition, EECS E6870 – Spring 2016, Columbia University,http://www.ee.columbia.edu/~stanchen/spring16/e6870/outline.html

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档