前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >scratch文字朗读没有声音怎么办_pocketfiles怎样解密

scratch文字朗读没有声音怎么办_pocketfiles怎样解密

作者头像
全栈程序员站长
发布2022-11-07 16:54:58
1.5K0
发布2022-11-07 16:54:58
举报
文章被收录于专栏:全栈程序员必看

问题说明

今天在使用 pocketsphinx_continuous 识别中文 wav 文件是,报如下错误:

代码语言:javascript
复制
> pocketsphinx_continuous -hmm zh_broadcastnews_ptm256_8000 -lm zh_broadcastnews_64000_utf8.DMP -dict zh_broadcastnews_utf8.dic -infile myfile.wav
ERROR: "continuous.c", line 136: Input audio file has sample rate [44100], but decoder expects [16000]

问题原因

这个 myfile.wav 是我从一个 mp3 文件转换过来的,其中是采样率是 44100HZ,而 pocketsphinx_continuous 需要使用 16000HZ 的音频文件。

具体文件是什么采样率,在 linux 上可以使用 soxi 命令查看,比如:

代码语言:javascript
复制
$ soxi myfile.wav
Input File     : 'myfile.wav'
Channels       : 1
Sample Rate    : 44100
Precision      : 16-bit
Duration       : 00:01:26.45 = 3812421 samples = 6483.71 CDDA sectors
File Size      : 7.62M
Bit Rate       : 706k
Sample Encoding: 16-bit Signed Integer PCM

解决办法

解决办法就是使用 sox 命令将音频文件采样率转换成 16000HZ,比如:

代码语言:javascript
复制
$ sox myfile.wav -r 16000 myfile-16000.wav
$ soxi myfile-16000.wav

Input File     : 'myfile-16000.wav'
Channels       : 1
Sample Rate    : 16000
Precision      : 16-bit
Duration       : 00:01:26.45 = 1383191 samples ~ 6483.71 CDDA sectors
File Size      : 2.77M
Bit Rate       : 256k
Sample Encoding: 16-bit Signed Integer PCM

转换后,重新运行语音识别程序。

代码语言:javascript
复制
> pocketsphinx_continuous -hmm zh_broadcastnews_ptm256_8000 -lm zh_broadcastnews_64000_utf8.DMP -dict zh_broadcastnews_utf8.dic -infile myfile-16000.wav

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/183449.html原文链接:https://javaforall.cn

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022年10月10日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 问题说明
  • 问题原因
  • 解决办法
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档