专栏首页算法+音频算法之我思
原创

音频算法之我思

很长一段时间,扎根在音频领域,各种玩耍。

渐渐上了轨道。

一切的一切仅仅因为相信自己能做好,也必须做好。

不懂就去查,去问,去找资料,去找视频。

渐渐的,我开始懂了,也慢慢有了系统性的理解。

随后经常能发散思维。

最近,

在自动增益,

音频降噪,

语速检测,

相位谱重建各个算法之间穿梭。

慢慢有所产出,有所突破。

特别是在音频降噪领域,

不能算质的飞跃,

但是确实摸到了一些规律。

而写完相位谱重建算法之后,

我也突发奇想,

相位谱既然能通过高斯分布的思路进行重建,

那是不是可以说明,

高斯分布可以用来作为音频算法的信号标准化,归一化。

这是一个值得去研究的方向,

音频信号的高斯归一化。

前面面试了一家公司的时候,

提到说音频通过能量谱可以重建相位谱,

那面试官好像认定我是傻子,

就好像觉得我是在胡扯一样。

真的懒得解释,

实操是验证真理的唯一标准。

而语速检测,

其实有点类似音乐的节拍检测,

只不过一定要去除空白帧,

因为空白从另一个角度来说,

可以认为是停顿,或者说换气。

所以语速检测的思路也可以基本确认。

而自动增益方面,

找资料的时候发现一个神奇的标准,EBU R128,

这里就不科普展开了,感兴趣的可以维基一下。

这个算法在FFMPEG里面有很详细的实现,

抠出来算法代码,直接应用,

效果不要太好。

近期,终于回到广东,

在南京接受了太多的负能量,回来之后真的有获得新生的感觉。

世界顿时和平。

相对于深度学习而言,

我还是比较坚持采用传统算法去实现降噪增益等处理,

原因也很简单,音频时效性特别重要。

采用深度学习很多时候要做大量的工作才能保证时效性了,

从软件,硬件的角度来说,音频不比图像好处理。

自然挑战也多了起来,

不过庆幸的是,

在傻逼一样的坚持之后,

不采用深度学习方案的音频降噪,

终于达到近乎可以商用的程度了。

当然最近也在思考算法的下一步优化方案。

继续验证思路,继续改良。

这里放出linux系统下的可执行文件,供大家评测。

下载地址:https://files.cnblogs.com/files/cpuimage/denoise.zip

解压后采用命令行: ./denoise sample.wav 

执行后生成降噪后的文件sample_out.wav

现在是自适应降噪强度,

降噪后自动做增益,

后续计划加上降噪的强度控制。

噪声样本自行寻觅,

比较好找。就不提供了。

在音频这条路上,

如果我走偏了,大家记得把我拉回来。

当然若有其他相关问题或者需求也可以邮件联系俺探讨。

邮箱地址是:  gaozhihan@vip.qq.com

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 一种简单高效的音频降噪算法示例(附完整C代码)

    <<语音增强-理论与实践>> 中提及到基于对数的最小均方误差的降噪算法,也就是LogMMSE.

    cpuimage
  • 音乐旋律提取算法 附可执行demo

    https://github.com/cpuimage/AudioFingerprinter

    cpuimage
  • 相机中白平衡的算法模拟实现

    相机主要技术点为3A算法。 而3A算法主要指的是自动对焦(AF)、自动曝光(AE)及自动白平衡(AWB)。 自动白平衡:根据光源条件调整图片颜色的保真程度。 网...

    cpuimage
  • JAVA-FTP批量大文件传输

    FTP的具体使用      FTP是一种网络协议,用于进行不同服务器主机之间的文件传输,或者简单地说两台不同IP的机器之间的文件传输。在java中我们什么时候需...

    生活创客
  • 没想到你是这样的Kali Linux | Kali 终端美化Figlet

    周俊辉
  • FUSE(FileSystem in User Space) 对算法的价值

    MLSQL 有一段时间致力于融合大数据平台和算法平台,实现 【同一个平台,同一个语言。】。事实上我们通过各种方式做到了,通过整合Spark ML,Spark M...

    用户2936994
  • ubuntu下python thrift

    用户2398817
  • 手机活动轨迹查询,究竟是什么原理?

    如何对人员流动加以管控,如何准确识别潜在的传染风险,成为摆在各地防控部门面前的难题。

    赵成
  • 初学者接触web前端需要注意什么?避免走上弯路

    初学Web前端要注意什么?如何学好JS模块化编程?JavaScript是前端三要素之一,也是很多初学Web前端的人遭遇的第一条拦路虎。很多同学表示JavaScr...

    用户5827212
  • 基于 HTML5 + WebGL 的宇宙 3D 展示系统

    近年来随着引力波的发现、黑洞照片的拍摄、火星上存在水的证据发现等科学上的突破,以及文学影视作品中诸如《三体》、《流浪地球》、《星际穿越》等的传播普及,宇宙空间中...

    HT for Web

扫码关注云+社区

领取腾讯云代金券

玩转腾讯云 有奖征文活动