鉴黄界最难的音频识别问题,腾讯云给解决了

音视频的多媒体化,正在撬动大量用户的原创热情,但由此产生的海量内容却带来新的难题。

一方面,由用户端产生的内容(UGC)跨度广泛,质量参差不齐; 另一方面,部分打“擦边球”、违规内容,蒙混在海量音视频中,也进一步加剧了内容审核者的挑战。

对于网络上传播的色情恶意内容,图像鉴黄技术很好的打击了大部分色情图像和视频内容,而在一些短视频、直播等场景中,还有一些色情内容以音频方式传播,用以规避图像维度的打击。

因此腾讯云安全天御研发了基于音频的鉴黄系统,让腾讯云的整套鉴黄解决方案更具突破性,目前该系统已在腾讯云的点播、直播等业务中上线使用,进一步提高色情内容检出率。

该色情音频鉴黄系统目前日处理音视频超过1亿条,每日识别数十万条色情音视频,准确率95%以上。

先做个选择题

(答案留言给我们)

根据以下两张语谱图,

猜猜哪张是色情尖叫声?

图A

图B

双管齐下

显著提升直播平台色情音频实时检出率

看似正常的语谱图,实际却是色情尖叫声。

目前音频鉴黄面临以下技术难点:

1. 音频内容和场景多样,常常伴有周围噪声和背景音乐等,信噪比较低;

2. 大部分音频时长较短,信息量不足;

3. 信道复杂,语音质量参差不齐,常见截频截幅等情况。

针对以上问题,腾讯云采用高效的 i-vector 系统保证较长音频正确快速检出,同时对信息量不足的短音频采用 DNN embedding 系统进行特定检出,两者互为补充,加上多种信道补偿算法的融合,同时保证了系统的识别性能和高实时率。

在业务量巨大的情况下,腾讯云基于变长统计和深度学习混合的鉴黄系统达到单线50倍速于原始音频流的高实时率。也就是说:1秒的音频,腾讯云0.02秒就能识别。

[ 音频鉴黄系统框图 ]

腾讯云的音频鉴黄系统基于海量数据训练得到,对于每条业务音频,系统首先会通过静音检测去掉其中的静音部分,将保留下来的有效音频内容进行声学特征提取。

由于每条音频的时长不同,基于统计量和深度神经网络的音频识别模型将不同长度的音频特征转换为统一维度的音频表征信息。

最后再与系统中的色情模型与正常模型相比对,经过分数融合得到最终的识别结果 。

海量正负样本训练

让色情尖叫声悄然无存

音频鉴黄系统离不开海量的正负样本训练,样本标注看似简单,但实际操作起来却并不容易:

1、对于色情音频的定义,不同于语种说话人等有一个明显的定义,不同的人对色情内容理解会有偏差,一条音频在 A 听来是色情内容,在 B 听来可能只是在恶搞。 

2、色情作为一种人为定义的类别,而声音是一种生物特征。同属于色情类别的声音可能从生物特征上来看差别巨大(像色情尖叫声和吮吸声),强制分为一类可能会导致训练不收敛的情况,并影响识别准确率。这就需要在标注时做细化工作,在色情与非色情之下再给出更精细化的标签。

基于以上几点,腾讯云在正负样本的标注中尽可能做到多标签区分,比如色情尖叫声、喘息声、吮吸声,专业 AV、UGC 视频等,以确保训练的模型能够有效的区分正常和色情音频,常见的标注如下:

[ 色情音频样本标注 ]

在长期的细化与标注工作中,腾讯云累积了一套多标签色情尖叫声、喘息声长达上万小时的色情音频数据集,用于音频鉴黄系统的训练提升;

同时,针对线上的识别数据也持续进行人工抽检覆盖和漏过情况,并将正负样本进行标注用于系统优化,让音频鉴黄系统更智能。

音频鉴黄技术由腾讯云安全天御打造,在文本、图片鉴黄的基础上为腾讯云的客户提供更全面的技术支持。

目前腾讯云的音频鉴黄系统已经在多个业务场景上使用,但由于场景需求的复杂性,仍有很多困难与挑战并存。紧跟音频分类相关领域的最新技术趋势,同时利用海量业务数据的优势进一步提高系统性能和速度,是腾讯云下一步的发展方向。

原文发布于微信公众号 - 腾讯云安全(TencentCloudSecurity)

原文发表时间:2018-10-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

视频更新|斯坦福CS231n深度学习与计算机视觉课时22-卷积神经网络工程实践技巧与注意点(上)

18940
来自专栏机器之心

深度 | 谷歌和OpenAI新研究:如何使用达尔文进化论辅助设计人工智能算法?

选自QZ 作者:Dave Gershgorn 机器之心编译 参与:吴攀、黄小天、李亚洲 现代机器智能建立在模仿自然的基础之上——这一领域的主要目的是在计算机中复...

384140
来自专栏AI科技评论

动态 | DeepMind 弹性权重巩固算法让 AI 拥有“记忆” ,将成机器高效学习的敲门砖

一直以来,计算机程序都是个“左耳进,右耳出”的“傻小子”,它们很快就会忘掉所做过的任务。DeepMind 决定改变传统的学习法则,让程序在学习新任务时也不忘掉旧...

38380
来自专栏机器之心

观点 | 从数据科学的角度,看斯坦福神经网络检测性取向的研究

36960
来自专栏AI科技大本营的专栏

CCAI 2017 | 病人是否有生命危险?机器学习来告诉你——专访南加州大学终身教授刘燕

CCAI大会前夕,CSDN专访了南加州大学计算机系终身教授、机器学习中心主任刘燕,她的主要研究项目是时间序列和时空序列数据的分析与学习,我们就机器学习在医疗中的...

36260
来自专栏机器之心

伯克利提出DeepMimic:使用强化学习练就18般武艺

选自BAIR Blog 作者:Xue Bin (Jason) Peng 机器之心编译 运动控制问题已经成为强化学习的标准基准,深度强化学习方法被证明适用于包括操...

35650
来自专栏AI科技评论

业界丨图像识别怎样改变AV产业?日本人表示:你们都弱爆了

AI 科技评论注:本文作者何之源,复旦大学计算机科学硕士在读,研究人工智能计算机视觉方向。本文由 AI 科技评论编辑整理自作者知乎专栏,获授权发布。 先进的图像...

66780
来自专栏镁客网

无处不在的人工神经网络:机器人拥有意识的关键

18650
来自专栏ATYUN订阅号

MIT开发神经网络模型,检测自然对话中的抑郁迹象

麻省理工学院的研究人员开发了一种神经网络模型,可以分析采访中的原始文本和音频数据,以发现指示抑郁症的语音模式。该方法可用于为临床医生开发诊断辅助工具,以便在自然...

11430
来自专栏机器之心

前沿 | 上交大&南科大最新PRL论文:成功用机器学习实现量子态分类器

据介绍,目前学术界对量子机器学习这一交叉领域包括两方面研究:一方面是利用量子力学的相干叠加或者纠缠等特性,构建能有实现加速的量子机器学习算法,如量子版本的 PC...

14200

扫码关注云+社区

领取腾讯云代金券