学习
实践
活动
专区
工具
TVP
写文章

Linux 使用 pocketsphinx 做中文语音识别

前一篇博客说了一下怎么在 Windows 平台使用 pocketsphinx 做中文语音识别,今天看看在 Linux 上怎办实现。 由于 pocketsphinx 没有提供 Linux 的二进制,因此我们需要自己根据源码编译。 16k_ptm256_8000.tar.bz2 (需要解压) 语言模型:zh_broadcastnews_64000_utf8.DMP 拼音字典:zh_broadcastnews_utf8.dic 测试中文语音识别 首先准备一个中文音频文件(要求:.wav 格式,采样频率 16000HZ,单声道) 将下载的中文模型文件和解压后的 pocketsphinx 目录放到同一个目录下,这里假定就叫 “test”。 dict zh_broadcastnews_utf8.dic -infile myfile-16000.wav > myfile.txt 运行完毕后,查看 myfile.txt 文件,内容即是程序识别出来的中文

2.7K30

Windows 使用 pocketsphinx 做中文语音识别

https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/ 其中 Mandarin 为中文普通话 16k_ptm256_8000.tar.bz2 (需要解压) 语言模型:zh_broadcastnews_64000_utf8.DMP 拼音字典:zh_broadcastnews_utf8.dic 测试中文语音识别 首先准备一个中文音频文件(要求:.wav 格式,采样频率 16000HZ,单声道) 将下载的中文模型文件和解压后的 pocketsphinx 目录放到同一个目录下,这里假定就叫“中文语音识别”。 进入“中文语音识别”目录,然后运行下面的命令 pocketsphinx\bin\Release\x64\pocketsphinx_continuous.exe -hmm zh_broadcastnews_ptm256 zh_broadcastnews_utf8.dic -infile myfile-16000.wav > myfile.txt 运行完毕后,查看 myfile.txt 文件,内容即是程序识别出来的中文

2.2K30
  • 广告
    关闭

    语音识别特惠,低至1元!!

    为企业提供极具性价比的语音识别服务。被微信、王者荣耀、腾讯视频等大量内部业务使用,外部落地录音质检、会议实时转写、语音输入法等多个场景。

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    PPASR中文语音识别(入门级)

    在传统的语音识别的模型中,我们对语音模型进行训练之前,往往都要将文本与语音进行严格的对齐操作。 在传统的语音识别的模型中,我们对语音模型进行训练之前,往往都要将文本与语音进行严格的对齐操作,这种对齐非常浪费时间,而且对齐之后,模型预测出的label只是局部分类的结果,而无法给出整个序列的输出结果, requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ 数据准备 在data目录下是公开数据集的下载和制作训练数据列表和字典的,本项目提供了下载公开的中文普通话语音数据集 自定义的语音数据需要符合一下格式: 语音文件需要放在dataset/audio/目录下,例如我们有个wav的文件夹,里面都是语音文件,我们就把这个文件存放在dataset/audio/。 每一行数据包含该语音文件的相对路径和该语音文件对应的中文文本,要注意的是该中文文本只能包含纯中文,不能包含标点符号、阿拉伯数字以及英文字母。

    30320

    Jenkins 中文语言

    部分 Jenkins 中文用户可能已经发现,在最近升级 Jenkins 版本,或下载较新的 Jenkins 后,界面上很多部分显示的是英文。对此,我简单介绍一下原因以及如何安装中文插件。 最明显的一个现象就是,这些仓库不一定都会有熟悉中文的维护者,因此导致 PR 无法真实、及时地进行 Review 以及合并发布。 基于以上的考虑,我开发了简体中文插件,并从 Jenkins 2.145 版本中把大部分的中文本地化资源文件迁移到了该插件中。 而且,最终会对 Jenkins Core 以及流行的插件中所有的中文本地化资源文件进行迁移。 安装简体中文插件也很简单,只要在 Jenkins 的插件管理界面上,搜索中文就能找到该插件。 安装并重启后就能看到中文界面。 更多细节请查看。欢迎对中文本地化工作感兴趣的同学加入我们!

    2.5K40

    linux抓本来端口,Linux

    172.31.0.42‘ -w /tmp/temp.cap 监听指定的主机 $ tcpdump -i eth0 -nn ‘host 192.168.1.231‘ 这样的话,192.168.1.231这台主机接收到的和发送的都会被抓取 $ tcpdump -i eth0 -nn ‘src host 192.168.1.231‘ 这样只有192.168.1.231这台主机发送的才会被抓取。 $ tcpdump -i eth0 -nn ‘dst host 192.168.1.231‘ 这样只有192.168.1.231这台主机接收到的才会被抓取。 1、如果要抓eth0的,命令格式如下: tcpdump -i eth0 -w /tmp/eth0.cap 2、如果要抓192.168.1.20的,命令格式如下: tcpdump -i etho host 6、假如要抓pppoe的密码,命令格式如下: tcpdump -i eht0 pppoes -w /tmp/pppoe.cap 7、假如要抓eth0的,抓到10000个后退出,命令格式如下: tcpdump

    22640

    基于Pytorch实现的MASR中文语音识别

    Doi技术团队 链接地址:https://blog.doiduoyi.com/authors/1584446358138 初心:记录优秀的Doi技术团队学习经历 本文链接:基于Pytorch实现的MASR中文语音识别 MASR是一个基于端到端的深度神经网络的中文普通话语音识别项目,本项目是基于masr 进行开发的。 在data目录下是公开数据集的下载和制作训练数据列表和字典的,本项目提供了下载公开的中文普通话语音数据集,分别是Aishell,Free ST-Chinese-Mandarin-Corpus,THCHS 自定义的语音数据需要符合一下格式: 语音文件需要放在dataset/audio/目录下,例如我们有个wav的文件夹,里面都是语音文件,我们就把这个文件存放在dataset/audio/。 每一行数据包含该语音文件的相对路径和该语音文件对应的中文文本,要注意的是该中文文本只能包含纯中文,不能包含标点符号、阿拉伯数字以及英文字母。 生成训练的数据列表和数据字典。

    2K86

    基于Pytorch实现的MASR中文语音识别

    技术团队 链接地址:https://blog.doiduoyi.com/authors/1584446358138 初心:记录优秀的Doi技术团队学习经历 本文链接:基于Pytorch实现的MASR中文语音识别 MASR是一个基于端到端的深度神经网络的中文普通话语音识别项目,本项目是基于masr 进行开发的。 在data目录下是公开数据集的下载和制作训练数据列表和字典的,本项目提供了下载公开的中文普通话语音数据集,分别是Aishell,Free ST-Chinese-Mandarin-Corpus,THCHS 自定义的语音数据需要符合一下格式: 语音文件需要放在dataset/audio/目录下,例如我们有个wav的文件夹,里面都是语音文件,我们就把这个文件存放在dataset/audio/。 每一行数据包含该语音文件的相对路径和该语音文件对应的中文文本,要注意的是该中文文本只能包含纯中文,不能包含标点符号、阿拉伯数字以及英文字母。

    78830

    依图做语音了!识别精度创中文语音识别新高点

    依图语音识别算法在全球最大开源中文数据库AISHELL-2上词错率仅3.71%,比原业内领先者提升约20%,大幅刷新现有纪录。比对各家语音识别算法,当今智能语音战场,英雄唯讯飞与依图尔? “作为语音行业的‘新生’,我们还是有很多向‘老生’学习的地方,但我们立志推动行业创新与发展,做世界最好的中文普通话语音识别技术。” 智能语音竞争还未开始,依图要做世界最好的中文语音识别 万物互联,语音为先。 语音识别是AI理解世界最重要的组成部分,也是AI能听会说善理解的必要条件。 此次依图科技在语音识别技术方面的突破,不仅意味着依图首次涉足语音识别领域便已经跻身中文语音识别第一阵营,同时也说明语音识别在技术层面还有足够的进化空间,远远没有达到“超越人类”。 一般认为,中文语音识别的字错率低于3%时不会影响可读性,而超过15%则毫无可读性。这是语音识别的两条红线,在不同场景下,不同算法的表现可能会有很大差异。

    1K30

    语音输入中文域名可作为语音访问网站服务的通用接口

    ,我认为语音输入中文域名直接访问网站服务是解决语音访问网站服务最通用和直接的互联网基础应用。 国家鼓励和支持中文域名系统的技术研究和推广应用。”。语音输入中文域名作为语音访问网站服务的通用接口将有法可依和有法可循。       随着推动中文域名邮箱、中文域名超链接和语音输入中文域名的广泛支持,中文域名便于记忆,易于品牌宣传,利于移动互联网时代的手写输入和语音输入,让众多老幼人群更便于接入互联网。       如果中文域名推进工作组能推动讯飞、百度、阿里巴巴和腾讯等这4家“语音识别”接口服务提供商支持语音输入中文域名,将极大地推动中文域名的应用场景。 语音输入中文域名的应用场景可以多种多样,例如回到家通过语音操控打开智能电视,可以语音换台,如果能支持语音输入中文域名,还可以实现语音浏览网页,以下是智能电视实现语音操控浏览网站的假想场景:当用户语音打开家里的电视

    30950

    R语音与数据挖掘常用的

    然后,是《Applied Econometrics with R》,该书对应的R是AER,可以安装之后配合使用,效果甚佳。计量经济学中很大一部分是关于时间序列分析的,这一块内容在下面的地方说。 该书介绍了各种时间序列分析的经典方法及实现各种经典方法的R代码,该书有中文版。如果不想买的话,建议去作者主页直接下载,英文版其实读起来很简单。时间序列分析中有一大块儿是关于金融时间序列分析的。 对应的中文版有《金融时间序列分析常见问题集》,当然,目前还没有发出来。 8附注 与数据挖掘有关或者有帮助的R和函数的集合。 arulesSequences SPADE算法: cSPADE 5、时间序列 常用的: timsac 时间序列构建函数: ts 成分分解: decomp, decompose, stl, tsr

    88480

    基于Kersa实现的中文语音声纹识别

    源码地址:VoiceprintRecognition-Keras 使用环境: Python 3.7 Tensorflow 2.3.0 模型下载 数据集 类别数量 下载地址 中文语音语料数据集 3242 创建数据 本教程笔者使用的是中文语音语料数据集 ,这个数据集一共有3242个人的语音数据,有1130000+条语音数据。 在create_data.py写下以下代码,因为中文语音语料数据集 这个数据集是mp3格式的,作者发现这种格式读取速度很慢,所以笔者把全部的mp3格式的音频转换为wav格式,在创建数据列表之后,可能有些数据的是错误的 最后recognition()函数中,这个函数就是将输入的语音语音库中的语音一一对比。 首先必须要加载语音库中的语音语音库文件夹为audio_db,然后用户回车后录音3秒钟,然后程序会自动录音,并使用录音到的音频进行声纹识别,去匹配语音库中的语音,获取用户的信息。

    32620

    Luminous监控界面中文语言

    dashboard,虽然目前这个只能看,但是从界面上面,从接口方面都是非常不错的一个版本 原生版本目前没有语言的选择,虽然IT方面都是推荐用英语去做,但是在数据展示方面因为毕竟是要人来看,所以这里做了一个中文的语言 ,方便转换成中文的界面,这个语言是跟着ceph版本走的,因为界面可能会调整,所以只能一一匹配,同时提供了原版语言,可以方便的回退回去,如果版本有更新以最后一个链接为准 如果有翻译的建议,欢迎在下面留言 ,或者其他方式告知我 语言 ceph版本(ceph version 12.2.0 (32ce2a3ae5239ee33d6150705cdb24d43bab910c) luminous (rc) 中文 http://7xweck.com1.z0.glb.clouddn.com/dashboard/luminous-dashboard-chinese-12.2.0-1.0-1.x86_64.rpm 英文原版

    80420

    关注

    腾讯云开发者公众号
    10元无门槛代金券
    洞察腾讯核心技术
    剖析业界实践案例
    腾讯云开发者公众号二维码

    相关产品

    • 语音识别

      语音识别

      腾讯云语音识别(ASR) 为开发者提供语音转文字服务的最佳体验。语音识别服务具备识别准确率高、接入便捷、性能稳定等特点。腾讯云语音识别服务开放实时语音识别、一句话识别和录音文件识别三种服务形式,满足不同类型开发者需求……

    相关资讯

    热门标签

    活动推荐

    扫码关注腾讯云开发者

    领取腾讯云代金券