基于腾讯云智能语音的实时语音识别微信小程序的开发

微信小程序的基础库升级到了 1.6.0 之后,提供了许多新的 API,其中新增了录音管理的 API,不同于以前只有 wx.startRecordwx.stopRecord 两个简单的录音功能,新的 wx.getRecorderManager 接口提供了包括扩展时长、采样率、录音通道、码率、格式等在内的许多配置项。基于此,我们能更加轻松的控制录音,新提供的 onFrameRecorded 的事件,甚至可以实现流式语音识别。

本文就介绍一下使用 Wafer Node.js SDK 提供的腾讯云智能语音识别接口来实现录音转文字的功能。请您先从 Github 下载语音识别 Demo,本文会根据 Demo 来介绍 SDK 中语音识别接口的使用。

使用语音识别需要开通腾讯云智能语音

打开server/config.js,添加上qcloudAppIdqcloudSecretIdqcloudSecretKey三个配置项,并在代码目录中打开 CMD,运行如下代码:

cd server && npm i

安装完成依赖,选择小程序开发者工具右上角的【腾讯云】按钮,点击【上传测试环境】上传代码到测试环境中,一键部署程序。你也可以自行部署代码,部署过程同《自行部署 Node.js Demo》,这里不再介绍。

最终实现的效果如下:

具体是如何实现的呢?接下来我们来分析一下 Demo 里的有关代码。

首先查阅 SDK API 文档可知,SDK 提供的语音识别接口是分片识别接口,原理是将语音文件切分成一个个分片,将每个分片以 buffer 格式传入接口,最后一个分片调用接口时需要将 isEnd 参数置为 true,最后会返回完整的识别结果,以此来流式识别语音。

由于智能语音识别只支持以下几种编码格式的音频文件:

  • pcm
  • adpcm
  • feature
  • speex
  • amr
  • silk
  • wav

所以小程序端通过 recorderManager 获取到的录音文件需要提前转换为这几种格式中的一种,然后才能识别。Demo 里选择了将 mp3 格式转换为 wav 格式文件的形式。

Demo 中采用了 ffmpeg 对语音文件进行转码,使用 ffmpeg 的前提是需要在环境中安装 ffmpeg,然后在 Node.js 中使用 fluent-ffmpeg 调用 ffmpeg 实现转码。

注意:ffmpeg 并没有默认预装在开发环境和生产环境中,如果您需要使用语音识别的转码功能,可以提交工单,我们会为您配置好环境。

打开 Demo 中的 server/controllers/recognize.js 文件,首先调用了 multiparty 从请求体中读取出上传上来的音频数据,接着对语音的类型进行一些判断。

...
const { files } = await resolveUploadFileFromRequest(ctx.req);
...
if (!resultType || !['audio/mpeg', 'audio/mp3'].includes(resultType.mime)) {
    throw new Error('上传的文件格式不是 mp3')
}
...

第 46 行开始对音频文件进行处理,首先先生成了 voiceIdvoiceId 告诉了语音识别接口每个语音分片属于哪个语音,每个语音的 voiceId 应当是唯一的。

接着调用了 convertMp3ToWav 函数对语音进行转换,convertMp3ToWav 函数的实现如下:

/**
 * mp3 转 wav
 * @param {string} srcPath 源文件地址
 * @param {string} newPath 新文件地址
 */
function convertMp3ToWav (srcPath, newPath) {
    return new Promise((resolve, reject) => {
        ffmpeg(srcPath)
            .format('wav')
            .on('error', reject)
            .on('end', function () {
                resolve(newPath)
            })
            .save(newPath)
    })
}

由于每次识别的文件大小最好不要超过 10K byte,所以需要对音频文件进行切片,原理就是将音频文件读取为 buffer,然后按每 9K byte 大小切片识别。

// 将文件读取为 Buffer
const voiceBuffer = fs.readFileSync(newVoicePath);

const taskList = [];
let leftBufferSize = 0;
let idx = 0;

// 按 9K 大小切分分片并识别
while (leftBufferSize < voiceBuffer.length) {
    const newBufferSize = leftBufferSize + 9 * 1024;
    
    // 切分分片
    const chunk = voiceBuffer.slice(
        leftBufferSize,
        newBufferSize > voiceBuffer.length
            ? voiceBuffer.length
            : newBufferSize
    )
    
    // 提交每个切片去识别,并将任务推入任务列表
    taskList.push(
        voice.recognize(
            chunk,
            newBufferSize > voiceBuffer.length,
            voiceId,
            idx
        )
    );
    
    leftBufferSize = newBufferSize;
    idx++;
}

以上就是语音识别 Demo 代码的分析,您可以直接运行 Demo,在手机端真机调试体验。

注意:开发者工具的录音接口返回的数据不是 MP3 格式,与真机行为不完全相同,所以录音相关的测试请直接使用真机调试。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏双十二技术哥

Android性能优化(八)之网络优化

移动互联网发展到现在,用户的联网方式已经完成了由流量依赖到Wifi依赖的转变。虽然网络环境在变好,但也对网络的应用提出了更高的要求,同时开发人员对网络的重视度却...

23330
来自专栏源码之家

搞定龙源期刊原貌版杂志的下载

36430
来自专栏

集装箱时代的分布式记录(第3部分)

你参加集装箱革命吗?开始利用Platform9对Kubernetes部署的最终指导来利用容器管理 。

23590
来自专栏CSDN技术头条

分享11款主流的开源编程工具

导读:有了开源编程工具,在基于开源许可证的情况下您可以轻松学习、修改、提高代码的质量,本文收集了11款最主流的且有价值的开源编程工具。或许会给您带来一丝惊喜。一...

26070
来自专栏java一日一条

微信、QQ这类IM App怎么做——谈谈Websocket

关于我和WebSocket的缘:我从大二在计算机网络课上听老师讲过之后,第一次使用就到了毕业之后的第一份工作。直到最近换了工作,到了一家是含有IM社交聊天功能的...

38920
来自专栏北京马哥教育

从苦逼到牛逼,详解Linux运维工程师的打怪升级之路

做运维也快四年多了,就像游戏打怪升级,升级后知识体系和运维体系也相对变化挺大,学习了很多新的知识点。 运维工程师是从一个呆逼进化为苦逼再成长为牛逼的过程,前提在...

74950
来自专栏Netkiller

协议测试

协议测试 May 9, 2016 协议测试 What 什么是协议测试 什么事协议? 协议是计算机进程或网络中进行数据交换而建立的规则、标准或约定的集合。 什么是...

52750
来自专栏小白课代表

软件分享 | C4D R14 安装教程

18820
来自专栏SAP最佳业务实践

SAP最佳业务实践:MM–有JIT交货计划的采购(230)-2计划协议

3、流程概览表 流程步骤业务角色事务代码预期结果创建计划协议采购员ME31L已创建计划协议维护交货计划采购员ME38已保存交货计划创建计划协议发布采购员ME84...

50150
来自专栏小白课代表

Proe5.0安装教程。

18030

扫码关注云+社区

领取腾讯云代金券