什么是音频 AI 生成识别服务?
音频 AI 生成识别服务是判断音频是否由 AI 工具生成的计算服务,由音频内容安全团队于2025年推出。音频 AI 生成识别服务可以被广泛应用于传媒平台、内容平台、语音反诈等场景,快速识别出由 AI 生成的音频。
音频 AI 生成识别是如何进行识别的?
通过机器学习,音频 AI 生成识别基于丰富音频数据预训练的特征提取模型,经大量真实音频、 AI 音频的数据训练后,能够有效识别 AI 音频。具体来看,音频 AI 生成识别模型可以准确识别出 AI 音频相比真实音频在模拟缺陷、过度标准方面的显著差异,其中部分差异性特征可以被举例如下:
| 具体特征 | 例子 |
模拟缺陷 | 异常重音 | 一句话中所有字词全为重音 |
| 异常停顿/加速 | “我喜 / 欢苹 / 果”的异常断句 |
| 异常语音语调 | 所有句子都出现尾音上扬 |
| 异常噪音 | 语音内容中出现瑕疵电流声 |
过度标准 | 音量恒定 | 声音频谱的最大振幅始终不变 |
| 语速恒定 | 语速始终保持150字 / 分钟 |
| 语音语调过于平稳 | 毫无波动的语音语调朗读 |
| 无副语言声音 | 语音中没有呼吸、唇齿摩擦声等 |
音频 AI 生成识别支持哪些音频生成的来源?
音频 AI 生成识别服务经过不断训练及迭代,已覆盖众多商用 API 及开源引擎,能够做到高准召率的稳定识别表现。音频 AI 生成识别服务目前已经覆盖的音频生成来源包括但不限于:
商用 API :阿里云、百度云、火山引擎、MiniMax、OpenAI、Google。
开源引擎:CosyVoice2、ChatTTS、F5-TTS-Base、FishSpeech-1.5、SparkTTS、TorToise。
音频 AI 生成识别支持哪些音频生成的方式?
音频 AI 生成识别目前支持识别多种 AI 音频生成方式:
文本转语音(TTS):以文字为输入的生成语音片段,如阅读文章时软件自带的“听全文”功能。
语音转换(VC):以一段语音为输入的生成语音片段,如变声器软件的使用。
音频 AI 生成识别支持哪些语言?
音频 AI 生成识别模型目前支持中文、英文的语音识别。