音频上传格式

最近更新时间:2024-05-30 17:12:12

我的收藏

音频文件规范

腾讯云智聆口语评测(Smart Oral Evaluation,SOE)在流式或非流式评测下都需要开发者按以下格式上传音频数据:
注意:
1. 需要满足音频属性,如有不一致,可能导致评估不准确或失败。
2. 比特率的控制模式推荐使用 CBR,固定码率。
音频文件格式
音频压缩格式
采样率(sample rate)
声道(channels)
位深(bit depth)
比特率(bit rate)
pcm
pcm
16kHz
单声道
16bit
256kbps以上
wav
mp3
MP3
-
32kbps以上
speex
speex
-
24kbps以上

音频格式转换

使用第三方转码工具 ffmpeg 进行转码,安装 ffmpeg,在命令行进行转码操作。常用命令如下:

wav 转 mp3

ffmpeg -i "input.mp4" -vn -acodec libmp3lame -ar 16k -ac 1 -b:a 48k "output.mp3" -y

mp4 转 mp3

ffmpeg -i "input.mp4" -vn -acodec libmp3lame -ar 16k -ac 1 -b:a 48k "output.mp3" -y

mp3/pcm 转 wav

ffmpeg -i "input.mp3" -acodec pcm_s16le -ar 16k -ac 1 "output.wav" -y

wav 转 pcm

ffmpeg -i "input.wav" -f s16le -ar 16k -ac 1 "output.pcm" -y

参数描述

参数
说明
ffmpeg
ffmpeg 命令
-i input.wav
-i 输入音频文件名
-vn
关闭视频流。用于视频转音频
-acodec libmp3lame
设置音频 codec 为 libmp3lame。将文件转换为 mp3 格式。
-acodec pcm_s16le
设置音频 codec 为 pcm_s16le。将文件转换为 wav 格式,位深16bit。
-f s16le
设置文件格式为 s16le(pcm 小端)。
-ar 16k
设置采样率为16k(hz)
-ac 1
设置音频通道数为1(单声道)
-b:a 48k
设置比特率为48k(kb/s)
output.mp3
输出转码后的音频文件
-y
输出文件存在时,无需询问,直接覆盖输出文件。

音频信息获取

使用第三方转码工具 FFmpeg 进行转码,安装 ffmpeg后,在命令行进行音频信息获取操作。常用命令如下:
ffprobe -i 'out.wav' -v quiet -of json -show_format -show_streams
参数
说明
ffprobe
ffmpeg 命令。ffprobe 包含在 ffmpeg 中
-i input.wav
-i 输入音频文件名
-v quiet
设置日志级别为 quiet
-of json
设置输出打印格式为 json
-show_format
设置显示输入多媒体流的容器格式信息
-show_streams
设置显示输入多媒体流中每一个流的信息