服务概述
音频内容安全提供了对 AI 生成内容的识别能力,本文将为您介绍页面体验和 API 调用两种音频生成识别服务的使用方式。
能力介绍
大模型技术的快速发展,给内容创作领域带来了更多的可能性,但同时也降低了创作门槛,带来了虚假信息、生成非法内容等问题。本产品能识别音频是否为 AI 工具生成,覆盖 Fastspeech 、 VITS 、 VALL-E 、 ChatTTS 、 CosyVoice 等数十种主流音频生成场景,在实际应用中识别准召率高。
逻辑上,系统会将音频按照每4秒为一小段进行截取,然后对截取的每小段鉴别是否生成识别,如下图所示:

获取到每小段的识别结果后,系统会整体来看生成段落在整体视频段落的占比。我们的建议值为:
合成段数占比<10%,判断为非合成音频。
合成段数占比 10% - 30%,判断为疑似少量合成音频,建议人工二次校验。
合成段数占比 >30%,判断为音频整体生成痕迹较重,大概率为合成音频。
服务对接
说明:
方式一 通过控制台页面使用
1. 登录 内容安全控制台,单击 LLM 内容审核,跳转后单击初始化配置,立即体验。

2. 在指定区域单击上传文件或将文件拖拽到此区域。

3. 上传文件或将文件拖拽到此区域后,单击提交检测,即可查看检测结果。

方式二:通过 API 接口调用
若您需要和您的业务系统做对接,则可使用 API 接口的方式来调用我们的服务。
1. 开通服务:登录 内容安全控制台,单击 LLM 内容审核,跳转后单击初始化配置,立即体验。
2. 获取接口参数:单击“应用管理”,即可见如下图所示的“AI 生成检测配套策略”,其中 Biztype 字段对应的值,即接口调用的必备传值。
3. 系统对接:请参见 音频内容安全接入文档 来完成系统接口的对接,其中,接口参数中 Biztype 的传值,即为上一步您在“应用管理”页面查看的 Biztype 值,Type 的传值为AUDIO_AIGC。
