企业如何守好“内容安全”关 ?腾讯安全天御给你锦囊妙计!

随着互联网的飞速发展,我们进入了一个信息爆炸的时代。图文、视频、聊天、直播等互动内容已经成为人们日常工作、生活不可或缺的部分。然而,在这些日益增长的内容中却充斥着各种不良言论、垃圾广告、涉黄等网络垃圾。这些流窜在互联网中的垃圾内容,不仅极大程度影响了用户体验,也让不少企业倍感困扰。

面对日益复杂的安全形势,企业该如何“祛污”,守护内容安全?在首届腾讯 Techo 开发者大会云安全技术与应用专场上,腾讯安全业务安全总监杨红围绕《新时代的内容风控实践与创新》,针对文本、图片、音频等载体的内容安全,从现状分析、算法选择、对抗过程及实践效果等方面着手,全景呈现了腾讯安全天御在守护内容安全上的实践经验。

音频丨色情AI识别模型,毫秒级识别不良音频

音频是现阶段网络上发展最快的信息载体。当下,游戏内语音交流已成常态,无论是手机游戏中的音频传输,还是通过语音及时通讯工具传输的音频内容,都是音频垃圾内容的灾区,但音频内容时间短、信道复杂,难以识别,成为内容安全监管中的难点。

在海量的音频识别中,“鉴黄”无疑挑战巨大。相较标准AV音频的识别,色情音频在内容、时长和信道维度都有其特点,比如存在静音、噪声干扰大,存在较大的背景音乐,而且时间较短,编码格式多样和采样率不统一等特点,这都为识别造成一定困难。针对这一问题,腾讯安全基于AI设计了一套色情音频识别流程,通过相应技术去掉静音内容,对音频进行分段识别,最后根据每个片段的得分和时长汇总得到整条语音内容的识别结果。针对音频样本搜集与标注的难点,腾讯安全天御大量综合网友举报,通过多类型、多标签标注,已实现音频鉴黄的准确率达到82%、召回率达到90%以上。

而针对网络谩骂,腾讯安全天御构建了高性能多语种语音关键词系统,通过特征提取、声学建模和解码等技术加持,可毫秒级识别不良音频。

文本丨线上打击+离线主动收集标注,恶意文本无处藏身

网络文本是网络中最大的信息载体,几乎所有互联网平台都面临文本安全问题。网络文本类垃圾消息通常含有特殊符号、变异字、多音字、形近字干扰,而传统的文本策略抗干扰能力弱,常常会导致误杀。

腾讯安全天御对此专门建立了一套垃圾文本识别模型——TextCNN文本分类算法,通过在线实时打击和离线主动收集标注让恶意文本无处藏身。在线模型训练中,补充了拼音和结构信息用于训练,对训练数据添同音字和拆字,提升抗干扰性。对于线上模型不能覆盖的新类型恶意垃圾,腾讯安全天御设计了离线样本主动收集流程,让学习算法主动提出要对哪些数据进行标注,增量训练分类模型进行实时打击。

在这套算法的支撑下,腾讯安全天御提升了至少50%以上的识别覆盖范围,准确率和召回率分别达到90%和80%以上。

图片丨多标签学习+细粒度识别,扫荡网图黑暗角落

图片是仅次于文本的第二大信息载体,其面临的识别挑战比文本更大,腾讯安全天御针对性地提出了多标签的图像识别算法,支持多标签输出、多种标签预测,这意味着在一定颗粒度下,给图片配上“身份证”以便识别。

腾讯安全天御丰富的数据积累是这套算法得以运行的关键。目前腾讯安全天御积累了各种涉黄图片数据500多万,每张图片有5个主要标签和10个细粒度标签。在标签识别中,不同的标签数量差距大、样本不平衡,各维度标签响应不同、统一阈值召回低的情况普遍存在,这也成为图片识别中的难点,腾讯安全天御采取标签级动态采样,使低频标签召回率提升15%;对维度标签问题,则使用验证集进行阈值搜索,设置多阈值。

与此同时,腾讯安全天御自研的logo元素识别算法,能够做到做到不同位置、尺度、分辨率、透视视角、遮挡干扰情况下具备良好的识别效果,准确率和召回率分别达到90%以上。

企业在接入腾讯安全天御内容风控的能力上非常便捷。腾讯安全天御不仅提供API接口,还可以协同腾讯云等产品接入企业的内容风控系统,帮助企业零开发、快速识别平台中可能存在的违规内容。

目前,腾讯安全天御的内容风控通过腾讯云和微信小程序已服务超过5万家开发者,行业渗透率达90%,审核效率提升20倍以上,业务健康程度达到99.89%,守护数万家客户的内容安全,保障业务健康开展,守卫互联网的清朗绿色。

点击【阅读原文】,快速接入腾讯安全天御内容风控

➤推荐阅读

关注腾讯云安全获取更多资讯

点右下角「在看」

开始我们的故事

本文分享自微信公众号 - 腾讯云安全(TencentCloudSecurity)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-11-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏算法与数据结构

小程序云开发--内容安全审查API云调用

7710
来自专栏科技分享

linux设备驱动程序-设备树(2)-device_node转换成platform_device

设备树的产生就是为了替代driver中过多的platform_device部分的静态定义,将硬件资源抽象出来,由系统统一解析,这样就可以避免各驱动中对硬件资源大...

7610
来自专栏音视频技术

网易易盾李雨珂:服务性能+算法确定性优化

10640
来自专栏数据魔术师

论文算法复现 | 推荐系统之基于Item Co-occurrence矩阵分解的原理及实现

传统的推荐系统使用用户-项目匹配矩阵来预测用户对项目的兴趣程度,矩阵如上图所示,推荐算法的实现过程可以看作是填补矩阵中缺失值的过程。

10520
来自专栏五分钟学算法

史上最烂的项目:苦撑 12 年,600 多万行代码

你见过最烂的项目,撑了多长时间才完蛋?六个月?一年?今天介绍的这个奇葩项目,不但一开始就烂得透透的,还硬撑了12年多,直到项目负责人被逮起来丢进监狱才完事。

10730
来自专栏五分钟学算法

五分钟学算法之经典算法题 :排序算法(某东算法工程师比赛)

已知数据表 A 中每个元素距其最终位置 不远 ,为了节省时间,应该采取的算法是()

8030
来自专栏云加推荐

几乎所有企业都要参加的网络安全大考,应该如何准备?

导语 | 备受关注的网络安全等级保护制度2.0国家标准于5月13日正式发布,并将于2019年12月1日正式实施。几乎所有企业都要通过的网络安全大考,应该如何准备...

5.7K640
来自专栏科技分享

设备树处理之——device_node转换成platform_device【转】

转自:https://www.cnblogs.com/downey-blog/p/10486568.html

7820
来自专栏云鼎实验室的专栏

Techo云安全专场议题前瞻丨数据安全解决方案重磅首发、区块链安全威胁全景公开……

11月6日-7日,首届腾讯 Techo 开发者大会将在北京举行。在这场持续2天的技术盛宴中,全球5000多位开发者、超140位中外业界大咖将齐聚一堂,为开发者...

9620

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励