音频算法之小黄人变声 附完整C代码

前面提及到《大话音频变声原理 附简单示例代码》与《声音变调算法PitchShift(模拟汤姆猫) 附完整C++算法实现代码

都稍微讲过变声的原理和具体实现。

大家都知道,算法从实现到最后工程应用,中间的环节和问题特别多。

尤其是编码的架构设计,好的数据结构和代码逻辑封装肯定是可复用,组件化的。

前几天写完《音频识别算法思考与阶段性小结》的时候,

我也提及到了。

会做一些算法编码优化相关的分享。

而有时候我总觉得文字表达很苍白,

所以我尽可能地把代码写得简洁易懂,

一方面是便于基础差的朋友学习。

另一方面也是为了自己在编码以及思考的时候,能更加清晰。

当然,变声算法绝大多数朋友都会选择一些开源的或者商业sdk去做二次开发。

例如:

https://www.fmod.com/

https://www.surina.net/soundtouch/

但如果仅仅停留在使用的阶段,它就是一个黑盒子。

知其然,却不知其所以然。

是远远不够的。

有时候我们是要站在巨人的肩膀上去看到更美丽的风景。

但是,我希望是一群人,而不是一个人。

也许大家也发现了,我写的大多数算法,是纯c无第三方依赖的。

是不是就会怀疑,我就只会写c语言?

不是的,我所掌握的编程语言:

主要: c,c++,python,汇编 

其次:pascal,c#,js,lua,go等

编程语言只是一个工具,关键还是算法思路。

用纯c写的主要目的,是为了破除一些第三方依赖,

不要一知半解地使用黑盒子。

当然,其次的好处就是跨平台,便携,可复用。

这样,一切了然于心。

为什么不可以造轮子呢?

只要你造的轮子是有用的,

不管是用于观赏用于学习还是其他用途。

在我了解到一些音频算法的思路之后,

变声算法的思路,

我觉得它的思路非常适用于扩展到大多数音频算法实现,

而且可复用度比较高。

所以,将它梳理开源,就显得特别有意义。

而大家可以基于这个实现,进一步去改进或者学习 音频算法,

例如降噪,增益等等。

因为这个编码实现的设计是完全可以适用到音频算法应用场景的。

逻辑也非常清晰。

项目地址:

https://github.com/cpuimage/pitchshift

当然为了便于一些朋友的学习使用,

示例代码提供一个简易的实现,

模拟变声为小黄人。

int main(int argc, char *argv[]) {
    printf("Audio Processing \n");
    printf("blog:http://cpuimage.cnblogs.com/ \n");
    printf("Pitch Shifting Using The Fourier Transform\n");

    if (argc < 2)
        return -1;

    char *in_file = argv[1];
    uint32_t sampleRate = 0;
    uint64_t totalSampleCount = 0;
    uint32_t channels = 0;
    short *data_in = wavRead_s16(in_file, &sampleRate, &totalSampleCount, &channels);
    if (data_in != NULL) {
        float pitchShift = 0.9f;
        size_t ms = 50;
        size_t overSampling = 4;
        size_t frameSize = sampleRate * ms / 1000;
        frameSize += frameSize % 2;
        planData pitchPlanData = {0};
        double startTime = now();
        makePlanData(frameSize, overSampling, sampleRate, &pitchPlanData);
        pitchshift(pitchShift, data_in, data_in, totalSampleCount, &pitchPlanData);
        // turn to minion pitch
        {
            totalSampleCount /= 2;
            short *samples = data_in;
            for (int i = 0; i < totalSampleCount; i++) {
                data_in[i] = samples[0];
                samples += 2;
            }
        }
        double time_interval = calcElapsed(startTime, now());
        freePlanData(&pitchPlanData);
        printf("time interval: %f ms\n ", (time_interval * 1000));
    }
    char drive[3];
    char dir[256];
    char fname[256];
    char ext[256];
    char out_file[1024];
    splitpath(in_file, drive, dir, fname, ext);
    sprintf(out_file, "%s%s%s_out%s", drive, dir, fname, ext);
    wavWrite_s16(out_file, data_in, sampleRate, totalSampleCount);
    if (data_in) {
        free(data_in);
    }
    printf("press any key to exit.\n");
    getchar();
    return 0;
}

不做多解释,大家可以参阅pitchshift函数的实现,

主要实现位于文件PitchShift.h。

整个算法不到200行,逻辑非常清晰,

已经做了一定程度上的工程化优化。

当然还有很大的改进空间,

不过这份代码,更多的意义在于学习。

授人以鱼不如授人以渔。

若有其他相关问题或者需求也可以邮件联系俺探讨。

邮箱地址是:  gaozhihan@vip.qq.com

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

学界 | UC Berkeley提出新型分布式框架Ray:实时动态学习的开端

34040
来自专栏AI研习社

博客 | Github开源人体姿态识别项目OpenPose中文文档

人体姿态识别与估计的应用场景:抖音尬舞机、体育动作教学、3D健身教练、3D试衣、绘画辅助、游戏人物动作采集。

1.8K40
来自专栏AI研习社

微软推出开源自动驾驶仿真平台 AirSim 教程,机器学习新手也能快速上手自动驾驶

AirSim 是微软推出的开源项目,用于测试人工智能系统的安全性,该系统提供仿真的环境、车辆动力和感知能力,促进无人驾驶技术的发展。近期,微软的工程师推出了一...

42380
来自专栏腾讯移动品质中心TMQ的专栏

【Android场景化性能测试】UI流畅度篇

承接《Android场景化性能测试-方向与框架篇》,本篇详述UI流畅度的测试方法,重点在于获得流畅度SM数据之后,如何利用好。

91540
来自专栏腾讯大讲堂的专栏

AI异常计算点的监控调度

18770
来自专栏机器之心

资源 | 清华大学开源OpenKE:知识表示学习平台

470110
来自专栏AI派

还没准备好数据呢,为什么要着急用算法呢

开始之前,通知下我的读者,随着订阅读者越来越多,为了对读者们负责,有以下几件事情需要告知下:

25660
来自专栏AI2ML人工智能to机器学习

当arXiv遇到Twitter

arXiv是一个开放的存放预备版(preprint)文章的地方。 这个Cornell University在1991开启的项目, 因为Grigori Perel...

9930
来自专栏Jerry的SAP技术分享

机器学习在SAP Cloud for Customer中的应用

关于机器学习这个话题,我相信我这个公众号1500多位关注者里,一定有很多朋友的水平比Jerry高得多。如果您看过我以前两篇文章,您就会发现,我对机器学习仅仅停留...

16120
来自专栏目标检测和深度学习

github最热门的Python项目:深度学习占半壁江山

本篇文章为大家盘点了1月份最热门的Python 项目,本月最热门的开源项目中,深度学习相关的开源项目占据了半壁江山,让我们一起来看下吧! 1 FastPhoto...

332100

扫码关注云+社区

领取腾讯云代金券