音频内容安全音频 AI 生成识别服务相关

什么是音频 AI 生成识别服务？
音频 AI 生成识别服务是判断音频是否由 AI 工具生成的计算服务，由音频内容安全团队于2025年推出。音频 AI 生成识别服务可以被广泛应用于传媒平台、内容平台、语音反诈等场景，快速识别出由 AI 生成的音频。
音频 AI 生成识别是如何进行识别的？
通过机器学习，音频 AI 生成识别基于丰富音频数据预训练的特征提取模型，经大量真实音频、 AI 音频的数据训练后，能够有效识别 AI 音频。具体来看，音频 AI 生成识别模型可以准确识别出 AI 音频相比真实音频在模拟缺陷、过度标准方面的显著差异，其中部分差异性特征可以被举例如下：
﻿
具体特征
例子
模拟缺陷
异常重音
一句话中所有字词全为重音
﻿
异常停顿/加速
“我喜 / 欢苹 / 果”的异常断句
﻿
异常语音语调
所有句子都出现尾音上扬
﻿
异常噪音
语音内容中出现瑕疵电流声
过度标准
音量恒定
声音频谱的最大振幅始终不变
﻿
语速恒定
语速始终保持150字 / 分钟
﻿
语音语调过于平稳
毫无波动的语音语调朗读
﻿
无副语言声音
语音中没有呼吸、唇齿摩擦声等
音频 AI 生成识别支持哪些音频生成的来源？
音频 AI 生成识别服务经过不断训练及迭代，已覆盖众多商用 API 及开源引擎，能够做到高准召率的稳定识别表现。音频 AI 生成识别服务目前已经覆盖的音频生成来源包括但不限于：
商用 API ：阿里云、百度云、火山引擎、MiniMax、OpenAI、Google。
开源引擎：CosyVoice2、ChatTTS、F5-TTS-Base、FishSpeech-1.5、SparkTTS、TorToise。
音频 AI 生成识别支持哪些音频生成的方式？
音频 AI 生成识别目前支持识别多种 AI 音频生成方式：
文本转语音（TTS）：以文字为输入的生成语音片段，如阅读文章时软件自带的“听全文”功能。
语音转换（VC）：以一段语音为输入的生成语音片段，如变声器软件的使用。
音频 AI 生成识别支持哪些语言？
音频 AI 生成识别模型目前支持中文、英文的语音识别。
﻿

	具体特征	例子
模拟缺陷	异常重音	一句话中所有字词全为重音
		异常停顿/加速	“我喜 / 欢苹 / 果”的异常断句
		异常语音语调	所有句子都出现尾音上扬
		异常噪音	语音内容中出现瑕疵电流声
过度标准	音量恒定	声音频谱的最大振幅始终不变
		语速恒定	语速始终保持150字 / 分钟
		语音语调过于平稳	毫无波动的语音语调朗读
		无副语言声音	语音中没有呼吸、唇齿摩擦声等

音频 AI 生成识别服务相关

本页目录：

什么是音频 AI 生成识别服务？

音频 AI 生成识别是如何进行识别的？

音频 AI 生成识别支持哪些音频生成的来源？

音频 AI 生成识别支持哪些音频生成的方式？

音频 AI 生成识别支持哪些语言？