MS团队呼叫-无法读取.wav文件_Python speech_recognition无法读取wav文件_scipy.io.wavfile.read无法读取16位.wav文件 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

在FreeSWITCH中写一个简单的IVR

IVR（Interactive Voice Response）即交互式语音应答，也就是我们说的电话语音菜单，可以使用预先录制的语音或者TTS进行自动应答，提供菜单导航，主要用于呼叫中心系统。我们主要介绍FreeSWITCH提供的IVR功能。

02

干货 | 携程呼叫中心移动坐席解决方案

作者简介本文作者为携程基础业务研发部呼叫中心团队，其在传统呼叫中心基础上，结合软交换、智能分配、自动语音语义处理等技术，为携程用户提供人性化、人机互动、便捷的电话语音服务。一、前言智能手机早已成为日常生活中不可或缺的一部分，随着移动互联网的快速发展，人们的生活习惯与工作方式也在不断发生改变。从移动通信、移动支付，再到移动办公，“移动化”已渗透至各行各业，并逐步成为企业业务发展的趋势。携程呼叫中心研发团队根据业务的需求，研发完成了一套完整的呼叫中心移动坐席解决方案，使业务坐席不再受制于工作时间、办公地

07

您找到你想要的搜索结果了吗？

是的

没有找到

浏览器实验中的故障排除

https://webrtchacks.com/troubleshooting-unwitting-browser-experiments-al-brooks/

03

mod_lua和mod_v8

这两个模块都是在FreeSWITCH支持使用嵌入式语言来控制呼叫流程的。我们在以前的文章中也曾不同程度地提到他们。其中，mod_lua支持Lua语言，Lua是很有名的嵌入式语言，能非常好地嵌入其它语言的程序中。该模块有两个版本，最新的版本支持Lua 5.2，而支持Lua 5.1的版本现在已被移动到源代码的legacy目录中。而mod_v8支持Javascript，由Google的v8库提供支持，v8库已被成功用于Chrome及node.js中，性能强劲。其实对Javascript的支持也有两个版本，另一个版本也在legacy目录中，叫做mod_spidermonkey。Spidermonkey是Firefox中的Javascript引擎。 Lua和Javascript两种语言有很多相似的地方，我们不必多说，先来看两个脚本： test.lua session:answer() session:sleep(1000) session:streamFile("/tmp/hello-lua.wav") session:hangup() test.js session.answer(); session.sleep(1000); session.streamFile("/tmp/hello-js.wav"); session.hangup(); 可以看出，两个脚本的内容和功能基本上一样。第一行，对当前呼叫进行应答；然后，小睡一会（以确定能正确的建立媒体流）；接着，播放一个声音文件；最后，挂机。可以分别使用如下Dialplan将来话路由到上述脚本： <action application=“lua” data=“/tmp/test.lua”/> 或 <action application=“javascript” data=“/tmp/test.js”/> 当然，两个脚本本质上是Lua或Javascript，因而你可以很容易地在脚本中加入条件判断、循环等，甚至也可以通过相关的API与数据库或其它系统交互。能实现什么样的程序，完全在于你的想象力，从现在起，就写个脚本练一练吧？ ---------------------------------------- FreeSWITCH-CN是什么？ ---------------------------------------- FreeSWITCH-CN是FreeSWITCH中文社区，我们的官方网站是 http://www.freeswitch.org.cn 。FreeSWITCH-CN同时也是一个微信公共账号，可以通过点击本页最顶端的「FreeSWITCH中文社... 」，或在通迅录->订阅号中搜索「FreeSWITCH-CN」来订阅，也可以到官方网站上扫描二维码。当然，不管是新用户还是老用户，随时都可以输入m或1显示本账号的主菜单。 FreeSWITCH-CN的账号维护者是Seven Du，在此，他会分享多年的FreeSWITCH使用经验，分享一些对开源VoIP软件以及软件社区的思考，并隔三差五的解答一些粉丝关心的问题。Seven Du于2007年听说、2008年开始使用FreeSWITCH，2009年创办FreeSWITCH-CN中文社区，2011~2013连续三年参加了在美国芝加哥举办的ClueCon全球VoIP开发者大会，该会议是由FreeSWITCH核心团队主办的。如果你在学习和使用FreeSWITCH的过程中，有什么有趣的故事，也欢迎与我分享。移动设备上打字不方便，如果想写长的留言可以发邮件到 wechat@freeswitch.org.cn 。

01

FreeSWITCH新特性之VideoMail

dialplan/default/0001_vmain.xml中，定义了VoiceMail的检查方法。当呼叫vmain或*98时，就可以进行检查。

02

bind_digit_action

bind_digit_action是FreeSWITCH中的一个Application。和bind_meta_app很相似，但是bind_digit_action使用起来更得心应手。可以这么说，在所有使用到bind_meta_app的场合都可以用bind_digit_action来代替。

04

mod_spidermonkey

SpiderMonkey是第一款最早面世的JavaScript引擎，它是Mozilla使用的Javascript引擎。FreeSWITCH也使用了该引擎来在FreeSWITCH内部支持Javascript嵌入式语言。 FreeSWITCH中对Javascript脚本的支持是在mod_spidermonkey中实现的。通过该模块，可以使用Javascrip控制呼叫流程，如，你可以使用如下Dialplan将电话交给一个Javascript脚本处理： <action application=“javascript” data=“/tmp/test.js”/> 然后，创建如下js文件： session.answer(); session.sleep(1000); session.streamFile("/tmp/hello-js.wav"); session.hangup(); 在js脚本中，可以得到一个session对象（Object），然后就可以对该session进行操作了。一个session代表一路通话。从上面的js脚本中很容易看出，第一行用于对来话进行应答，进二行小睡一会（1000毫秒），第三行则播放一个 .wav 文件，第四行挂机。是的，它等于以下Dialplan： <action application=“answer””/> <action application=“sleep” data=“1000”/> <action application=“playback” data=“/tmp/hello-js.wav”/> <action application=“hangup”/> 但是，大家都知道，在Dialplan中加入逻辑判断等功能都是有限的，但在Javascript中就不同了，你很容易写一些 if-else 之类的语句判断当前的场景进而执行不同的动作。关于这一点，我们在此就不举例子，有兴趣的可以自己研究一下。除了SpiderMonkey外，另一个Javascript引敬是V8，这是一个在Google Chrome中以及 Node.js中使用的Javascript引擎，它提供了比SpiderMondey更好的性能。最近，FreeSWITCH中也实现了一个mod_v8模块。该模块除了与mod_spidermonkey有一些小小的差别外，在API上完全兼容。也就是说，上述的test.js脚本在mod_v8下也能正常运行。由于mod_v8的出现，现在mod_spidermonkey已经不推荐使用了。从下列提交信息中，可以看出它已被移至源代码的 legacy目录中： b0bcc01 Deprecate mod_spidermonkeyWe consider mod_spidermonkey to be completely replaced by mod_v8 关于mod_v8，且听下回解说。另外，如果大家想先看哪些模块，告诉我，我会优先写。 ---------------------------------------- FreeSWITCH-CN是什么？ ---------------------------------------- FreeSWITCH-CN是FreeSWITCH中文社区，我们的官方网站是 http://www.freeswitch.org.cn 。FreeSWITCH-CN同时也是一个微信公共账号，可以通过点击本页最顶端的「FreeSWITCH中文社... 」，或在通迅录->订阅号中搜索「FreeSWITCH-CN」来订阅，也可以到官方网站上扫描二维码。当然，不管是新用户还是老用户，随时都可以输入m或1显示本账号的主菜单。 FreeSWITCH-CN的账号维护者是Seven Du，在此，他会分享多年的FreeSWITCH使用经验，分享一些对开源VoIP软件以及软件社区的思考，并隔三差五的解答一些粉丝关心的问题。Seven Du于2007年听说、2008年开始使用FreeSWITCH，2009年创办FreeSWITCH-CN中文社区，2011~2013连续三年参加了在美国芝加哥举办的ClueCon全球VoIP开发者大会，该会议是由FreeSWITCH核心团队主办的。如果你在学习和使用FreeSWITCH的过程中，有什么有趣的故事，也欢迎与我分享。移动设备上打字不方便，如果想写长的留言可以发邮件到 wechat@freeswitch.org.cn 。

02

Python 读取WAV音频文件画频谱的实例

在进行频谱分析时，发现MATLAB和python读取wav文件的波形不一致，导致不能得出正确结果，为了验证MATLAB和python哪部分有问题，于是有了这篇博客。

01

Freeswitch常见问题

FreeSwitch下配置DID的方法首先介绍下什么是DID? 翻译为中文为“直接向内拨号”，该服务是由电话公司提供的，它使用户能够直接拨打PBX或VOIP系统中的分机号码，而无需求助于总机或自动话

02

mod_portaudio

前几天，儿子由于顽皮以及我的疏忽碰破了头，去医院缝了3针，所以，这两天心神有点不宁，如果写得不好，抱歉了。好在我们家附近有一家新开的医院，环境看起来都很新，人也不多，服务也不错。包扎好了就没事了，大家也不用担心。只是这几天我得在家里陪着他。在医院时，看到医院到处都是易拉宝，墙上也贴着宣传牌。不过，上面的英语都翻译的很搞笑，当时没顾得拍照，但记得有一项“亲民医院”之类的词翻译成了kiss。当然，见怪不怪，这种神翻译随处可见，网友也有诸多吐嘈。相信大部分都是用机器翻译的，甚至有的还有不伦不类的“Service not available”。不明白，为什么这些制作标牌的广告公司这么没修养（没文化有情可原，你告诉人家啊）。当然，出现这些问题主要的原因也不能太怪广告公司，还是在于花钱做这些广告牌子的人。即使自己不认识英语，找个大学生帮忙看看花不了几个钱吧？要不，就直接回归拼音吧，我记得小时间的标志牌都是中文和拼音并排的，如“新华书店”上面就挂着“XIN HUA SHU DIAN”。好了，不扯这些了，今天说说mod_portaudio。

03

matinal：python 读写本地音频文件

在语音处理中，音频文件读写是基本操作。然而读写方式乃至归一化处理的多样化，有可能导致后续处理的偏差乃至错误。本文汇集实践中所遇的一些方法，并参考了其他文章，确保读写操作的准确性和一致性。

02

freeswitch笔记(2)-voip初体验

上一篇学习了如何安装freeswitch，接下来我们利用2个voip软件来体验如何互打电话（注：仍然是mac环境，windows用户可参考mac上的做法，原理相通）

01

使用PaddlePaddle实现声纹识别

本章介绍如何使用PaddlePaddle实现简单的声纹识别模型，首先你需要熟悉音频分类，没有了解的可以查看这篇文章《基于PaddlePaddle实现声音分类》

00

Java如何调用本地扬声器

博主的毕设系统在做一个餐厅的点餐管理系统，在记性移动端页面开发的时候突发奇想做一个呼叫服务员，扬声器发声的一个功能类似于：“工作人员请注意，桌号8001顾客正在寻求帮助！”。

03

android音频编辑之音频裁剪的示例代码

本篇开始讲解音频编辑的具体操作，从相对简单的音频裁剪开始。要进行音频裁剪，我的方案是开启一个Service服务用于音频裁剪的耗时操作，主界面发送裁剪命令，同时注册EventBus接受裁剪的消息（当然也可以使用广播接受的方式）。因此，在本篇主要会讲解以下内容：

02

Python声音处理入门

原文Basic Sound Processing with Python描述了怎样在Python中通过pylab接口对声音进行基本的处理。

04

wav 声音文件快速傅里叶变换

本篇涉及到.wav 声音文件的读取，FFT变换以及用matplotlib来显示声音的时域和频域信息。

04

python处理wav音频文件：音频信息，读取内容，获取时长，切割音频，pcm与wav互转

因为工作中用到了wav格式的音频，所以就搜集了一些关于wav音频的处理。主要包括：音频信息，读取内容，获取时长，切割音频，pcm与wav互转

01

使用FreeSWITCH检测声音文件中的DTMF信息

今天，有网友问到一个问题——使用什么工具检测录音文件中的DTMF信息。其实FreeSWITCH本身就具备检测DTMF的功能，简单配置一下，写几个脚本就可以了。

02

python WAV音频文件处理—— (1)读写WAV文件

WAV是一种波形音频文件格式(Waveform Audio File Format)。虽然是一种古老的格式（九十年代初开发），但今天仍然可以看到这种文件。 WAV具有简单、可移植、高保真等特点。

01

[深度学习工具]·python音频常用的操作

链接：http://www.cnblogs.com/xingshansi/p/6799994.html

05

利用python实现语音文件的特征提取

语音识别是当前人工智能的比较热门的方向，技术也比较成熟，各大公司也相继推出了各自的语音助手机器人，如百度的小度机器人、阿里的天猫精灵等。语音识别算法当前主要是由RNN、LSTM、DNN-HMM等机器学习和深度学习技术做支撑。但训练这些模型的第一步就是将音频文件数据化，提取当中的语音特征。

01

基于PaddlePaddle实现声音分类

本章我们来介绍如何使用PaddlePaddle训练一个区分不同音频的分类模型，例如你有这样一个需求，需要根据不同的鸟叫声识别是什么种类的鸟，这时你就可以使用这个方法来实现你的需求了。

01

基于Tensorflow实现声音分类

本章我们来介绍如何使用Tensorflow训练一个区分不同音频的分类模型，例如你有这样一个需求，需要根据不同的鸟叫声识别是什么种类的鸟，这时你就可以使用这个方法来实现你的需求了。话不多说，来干。

05

神经网络如何识别语音到文本

有专家预测，到2020年，企业将实现与客户对话的自动化。据统计，由于呼叫中心的员工要么没有接好电话，要么没有足够的能力进行有效沟通，公司损失了多达30%的来电。

02

学界 | 百度Deep Voice作者与Bengio团队探讨五大技术细节，端到端的语音合成还有多远？

androidauthority AI 科技评论消息，今日百度研究院在官网上正式推出了 Deep Voice：实时语音合成神经网络系统（Real-Time Neural Text-to-Speech for Production），Twitter 上也同步更新了消息，目前论文也已经投递 ICML 2017。本系统完全依赖深度神经网络搭建而成，最大的优势在于能够满足实时转换的要求。在以前，音频合成的速度往往非常慢，需要花费数分钟到数小时不等的时间才能转换几秒的内容，而现在，百度研究院已经能实现实时合成，

09

音频自动增益与静音检测算法附完整C代码

静音检测在WebRTC中是采用计算GMM (Gaussian Mixture Model,高斯混合模型)进行特征提取的。

基于Tensorflow2实现的中文声纹识别

本章介绍如何使用Tensorflow实现简单的声纹识别模型，首先你需要熟悉音频分类，没有了解的可以查看这篇文章《基于Tensorflow实现声音分类》。基于这个知识基础之上，我们训练一个声纹识别模型，通过这个模型我们可以识别说话的人是谁，可以应用在一些需要音频验证的项目。不同的是本项目使用了ArcFace Loss，ArcFace loss：Additive Angular Margin Loss（加性角度间隔损失函数），对特征向量和权重归一化，对θ加上角度间隔m，角度间隔比余弦间隔在对角度的影响更加直接。

02

MFC 键盘钩子「建议收藏」

一、前言一日，看见我妈正在用电脑练习打字，频频低头看键盘，我想：要是键盘能发音的话，不就可以方便她养成”盲打”的好习惯吗？光想不做可不行，开始行动(您可千万别急着去拿工具箱啊^_^)… 按键能发音，其关键就是让程序能够知道当前键盘上是哪个键被按下，并播放相应的声音,自己的程序当然不在话下，那么其它程序当前按下哪个键如何得知呢？利用键盘钩子便可以很好地解决。

02

python WAV音频文件处理——(3) 高效处理大型 WAV 文件

由于 WAV 文件通常包含未压缩的数据，因此它们的体积可能很大。这可能会使它们的处理速度非常慢，甚至阻止您一次将整个文件放入内存中。

01

基于Pytorch实现的声音分类

本章我们来介绍如何使用Pytorch训练一个区分不同音频的分类模型，例如你有这样一个需求，需要根据不同的鸟叫声识别是什么种类的鸟，这时你就可以使用这个方法来实现你的需求了。

04

freeswitch笔记(3)-esl入门

题外话：昨天是2020年元宵节，正值"新型肺炎"第二阶段防治关键时期，返沪后按规定自觉在家隔离14天，不出去给社会添乱，真心希望这次疫情快点过去。

02

R 语言线性回归应用：拟合 iOS 录音波形图

引言微信读书有一个录音功能需求：录音时绘制音频波形，音频以 wav 格式保存再次进入界面，加载 wav，重新渲染音频波形步骤 1 通过 NSRecorder.averagePow

07

基于Kersa实现的声纹识别

本项目是基于VGG-Speaker-Recognition开发的，本项目主要是用于声纹识别，也有人称为说话人识别。本项目包括了自定义数据集的训练，声纹对比，和声纹识别。

06

使用Tensorflow实现声纹识别

本章介绍如何使用Tensorflow实现简单的声纹识别模型，首先你需要熟悉音频分类，没有了解的可以查看这篇文章《基于Tensorflow实现声音分类》。基于这个知识基础之上，我们训练一个声纹识别模型，通过这个模型我们可以识别说话的人是谁，可以应用在一些需要音频验证的项目。

02

呼叫中心系统功能介绍图_汽车功能介绍

1. 个性化IVR交互式语音引导流程，树状逻辑、分层次、多分支、动态节点、自由跳转，用户可根据业务发展需要随时自行修改流程，无需厂家支持。

01

NumPy Cookbook 带注释源码五、NumPy 音频和图像处理

# 来源：NumPy Cookbook 2e Ch5 将图像加载进内存 import numpy as np import matplotlib.pyplot as plt # 首先生成一个 512x512 的图像 # 在里面画 30 个正方形 N = 512 NSQUARES = 30 # 初始化 img = np.zeros((N, N), np.uint8) # 正方形的中心是 0 ~ N 的随机数 centers = np.random.random_integers(0, N, s

03

音频知识（五）--数据处理

和图像处理一样，我们在进行音频任务的模型训练时，也需要对音频进行一些随机处理，作为训练数据的增广。本文主要介绍音频低音消除，音频增加噪声，音频变速。

02

基于Kersa实现的中文语音声纹识别

本项目说是使用Keras，但使用的都是Tensorflow下的keras接口，本项目主要是用于声纹识别，也有人称为说话人识别。本项目包括了自定义数据集的训练，声纹对比，和声纹识别。

02

音频增益响度分析 ReplayGain 附完整C代码示例

人们所熟知的图像方面的3A算法有： AF自动对焦(Automatic Focus) 自动对焦即调节摄像头焦距自动得到清晰的图像的过程 AE自动曝光(Automatic Exposure) 自动曝光的是为了使感光器件获得合适的曝光量 AW自动白平衡(Automatic White Balance) 白平衡的本质是使白色物体在任何光源下都显示白色与之相对应的音频方面的3A算法是: AGC自动增益补偿(Automatic Gain Control) 自动调麦克风的收音量，使与会者收到一定的音量水平，不会因发言者

08

从wav到Ogg Opus 以及使用java解码OPUS

自然界中的声音非常复杂，波形极其复杂，通常我们采用的是脉冲代码调制编码，即PCM编码。PCM通过抽样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码。

03

用ARM实现音乐电子相册

（前段时间在做嵌入式的课程设计，特将学习心得整理如下）一、开发工具及环境介绍 1、ARM处理器 ARM处理器是一个32位元精简指令集(RISC)处理器架构,其广泛地使用在许多嵌入式系统设计。 ARM处理器特点：体积小、低功耗、低成本、高性能；支持Thumb（16位）/ARM（32位）双指令集，能很好的兼容8位/16位器件；大量使用寄存器，指令执行速度更快；大多数数据操作都在寄存器中完成；寻址方式灵活简单，执行效率高；指令长度固定。 2、交叉编译环境 2.1、交叉编译交叉编译（cross-co

02

基于http的百度语音 REST api

什么是REST api？ -- REpresentational State Transfer REST api是基于http请求的一种api，就百度语音识别的实例来讲，通过百度提供的url加上经过编码的音频文件，向百度服务器发出请求，然后百度服务器返回识别的内容。结束。

03

【HTML5】HTML5 多媒体标签 ① ( audio 音频标签 | 音频标签常见属性值设置 | 音频标签默认代码设置 | 音频标签设置多种类型音频文件 )

传统 HTML 开发中 , 如果想要向网页中嵌入音频和视频 , 需要使用 Flash 浏览器插件才能实现 ;

04

语音识别系列︱用python进行音频解析（一）

笔者最近在挑选开源的语音识别模型，首要测试的是百度的paddlepaddle；测试之前，肯定需要了解一下音频解析的一些基本技术点，于是有此篇先导文章。

04

FreeSWITCH与Asterisk

今天，本来想多写点东西的，可是陪孩子玩的多了，就没有时间了。前两天有朋友问到FreeSWITCH有取代或超越Asterisk的历史地位的可能吗？简单回答一下：我认为，Asterisk的历史地位在于它是开源的VoIP软件的先驱，它的历史地位是谁都不可能替代的。但是，如果说到应用及规模，我倒认为FreeSWITCH的前景是很好的。下面是我以前翻译的一篇文章，与大家分享一下。该文章原载于：http://www.freeswitch.org.cn/2010/01/23/freeswitch-yu-asterisk.html ，也可以点击左下角的「查看原文」查看。

04

实用贴！教你进行压力测试！

经常关注我们FreeSWITCH中文社区的人知道，从2013开始，每年我们都会举办多次FreeSWITCH培训。

02

基于PaddlePaddle实现声纹识别

本章介绍如何使用PaddlePaddle实现简单的声纹识别模型，本项目参考了人脸识别项目的做法PaddlePaddle-MobileFaceNets ,使用了ArcFace Loss，ArcFace loss：Additive Angular Margin Loss（加性角度间隔损失函数），对特征向量和权重归一化，对θ加上角度间隔m，角度间隔比余弦间隔在对角度的影响更加直接。

02

PPASR中文语音识别（入门级）

本项目将分三个阶段分支，分别是入门级、进阶级和应用级分支，当前为入门级，随着级别的提升，识别准确率也随之提升，也更适合实际项目使用，敬请关注！

02

音视频入门之音频采集、编码、播放

今天我们学习音频的采集、编码、生成文件、转码等操作，我们生成三种格式的文件格式，pcm、wav、aac 三种格式，并且我们用 AudioStack 来播放音频，最后我们播放这个音频。

00

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭