文档中心>音频内容安全>常见问题>音频 AI 生成识别服务相关

音频 AI 生成识别服务相关

最近更新时间:2025-07-29 15:35:31

我的收藏

什么是音频 AI 生成识别服务?

音频 AI 生成识别服务是判断音频是否由 AI 工具生成的计算服务,由音频内容安全团队于2025年推出。音频 AI 生成识别服务可以被广泛应用于传媒平台、内容平台、语音反诈等场景,快速识别出由 AI 生成的音频。

音频 AI 生成识别是如何进行识别的?

通过机器学习,音频 AI 生成识别基于丰富音频数据预训练的特征提取模型,经大量真实音频、 AI 音频的数据训练后,能够有效识别 AI 音频。具体来看,音频 AI 生成识别模型可以准确识别出 AI 音频相比真实音频在模拟缺陷、过度标准方面的显著差异,其中部分差异性特征可以被举例如下:

具体特征
例子
模拟缺陷
异常重音
一句话中所有字词全为重音
异常停顿/加速
“我喜 / 欢苹 / 果”的异常断句
异常语音语调
所有句子都出现尾音上扬
异常噪音
语音内容中出现瑕疵电流声
过度标准
音量恒定
声音频谱的最大振幅始终不变
语速恒定
语速始终保持150字 / 分钟
语音语调过于平稳
毫无波动的语音语调朗读
无副语言声音
语音中没有呼吸、唇齿摩擦声等

音频 AI 生成识别支持哪些音频生成的来源?

音频 AI 生成识别服务经过不断训练及迭代,已覆盖众多商用 API 及开源引擎,能够做到高准召率的稳定识别表现。音频 AI 生成识别服务目前已经覆盖的音频生成来源包括但不限于:
商用 API :阿里云、百度云、火山引擎、MiniMax、OpenAI、Google
开源引擎:CosyVoice2、ChatTTS、F5-TTS-Base、FishSpeech-1.5、SparkTTS、TorToise

音频 AI 生成识别支持哪些音频生成的方式?

音频 AI 生成识别目前支持识别多种 AI 音频生成方式:
文本转语音(TTS):以文字为输入的生成语音片段,如阅读文章时软件自带的“听全文”功能。
语音转换(VC):以一段语音为输入的生成语音片段,如变声器软件的使用。

音频 AI 生成识别支持哪些语言?

音频 AI 生成识别模型目前支持中文、英文的语音识别。