人工智能时代,如何做好内容审核和流量反作弊?

【数据猿导读】4月21日,由DataFun、数据猿联合微软加速器主办的主题为“人工智能时代:内容审核与流量反作弊”活动在微软亚太研发集团总部举行。本期活动邀请了曾参与、负责360等多家公司内容开放平台建设的资深算法研发工程师刘路、爱奇艺流量反作弊项目负责人张晓明和数美科技联合创始人&CTO梁堃从内容、流量等方面分享了人工智能时代,平台的内容审核与流量反作弊是如何完成的。

记者 | 郭敏

官网 | www.datayuan.cn

微信公众号ID | datayuancn

近日,短视频APP成为众矢之的。因相关短视频内容涉未成年人低俗不良信息,国家网信办相继约谈了快手和今日头条旗下火山小视频相关负责人,提出严肃批评并责令全面整改。之后,微信、QQ也将在互联网短视频整治期间暂停短视频APP外链直接播放功能,涉及的APP包括微视、快手、抖音、西瓜视频等。

新媒体时代,用户每天生产的内容都在爆发式增长,在这些新生产的内容里通常存在着大量的不良内容,会使得用户产生反感,甚至触犯法律,这时就需要对这些新生产的内容进行审核,而传统的人工审核方式已经跟不上爆发式增长的内容量,人工智能时代,如何做好内容开放平台建设成为业内人士关注的热点。

4月21日,由DataFun、数据猿联合微软加速器主办的主题为“人工智能时代:内容审核与流量反作弊”活动在微软亚太研发集团总部举行。本期活动邀请了曾参与、负责360等多家公司内容开放平台建设的资深算法研发工程师刘路、爱奇艺流量反作弊项目负责人张晓明和数美科技联合创始人&CTO梁堃从内容、流量等方面分享了人工智能时代,平台的内容审核与流量反作弊是如何完成的。

当下,内容开放平台有三种类型:用户生产内容、专业生产内容和职业生产内容。大众点评、地图属于典型的用户生产内容;豆瓣、知乎属于典型的专业生产内容;微信公众号、抖音属于职业生产内容。内容开放平台的强社交性、强随机性和强运营性带来的主要问题和矛盾为广告主和消费者之间的矛盾,内容质量和内容之间的矛盾以及流量和质量之间的矛盾。

刘路 资深算法研发工程师

刘路认为建设一个行之有效的信用体系是内容开放平台解决这些矛盾的关键。一个常规的信用体系建设架构涉及到内容生产者和用户。内容生产者提交了内容之后去做个人信用和内容审核,审核需要利用大数据风控和信用评级功能,如果审核不通过内容生产者需要进行申诉,两方面审核均通过则可发布内容,之后可进行AB测试和分级发布,而内容发布之后需要进行风险评估,从而判断该内容是否需要召回,并设置相应的召回策略。

刘路特别指出,在内容方面需要设置层层关卡,低信用内容需要被内容信任监控,高信用内容则需设置内容被举报监控,从而最大程度地清除内容开放平台的不合规内容。

当下,视频网站已经形成一条灰色产业链,一些视频平台默认刷量行为,广告展现量中超过20%是虚假的。同时,刷量的流程已经高度程序化,业界缺乏合理的监管。而对于广告主,流量造假与欺诈行为无异。如今,各大视频网站发展十分迅速,如何在用户量较大的情况下,做好流量反作弊?爱奇艺流量反作弊项目负责人张晓明分享了爱奇艺流量反作弊的“术”与“道”。

张晓明 爱奇艺流量反作弊项目负责人 研究员

在业界,对于流量反作弊并没有统一的定义,在张晓明看来流量反作弊是制造非用户产生或带有一定目的性的数据,并且有机器作弊和人工作弊两种形式。其中机器作弊包括模仿投递日志、调用接口,这种形式设定模式相对固定,短期效果明显;人工作弊则包括微信群、QQ群以及由专人指导的专业APP,指导操作并与用户分成,这种模式不固定,效果与组织规模有关。

利用这两模式进行直播刷人气、网站刷广告、电视剧和商品刷流量,会使得正常用户对产品的判定标准失衡、企业信誉受损、数据分析不准确和成本上升等多种伤害。

在张晓明看来,流量反作弊具有被动防守、事后分析,业务场景复杂、没有通用模型,持续旧规则不断更新新规则等特点,如何进行有效地流量反作弊?基于以往的业务经验,张晓明表示,进行行之有效的流量反作弊需要做好前期的准备工作:掌握投递日志或者数据库中的元数据含义,掌握主体业务的工作模式和场景,避免信息孤岛,了解作弊的目的是什么以及与业务部门进行良好的沟通确认作弊的口径并做好保密工作。准备工作完成之后,在技术方面进行IP信誉、安全画像、加密信息检测和设备硬件信息检测;在业务方面进行规则统计和机器学习。

随着移动互联网的发展,人们的衣、食、住、行各个方面都结合在了一起,这给黑色产业带来了很大的盈利空间。在金融领域有借贷欺诈、盗卡交易、洗钱套现等模式;在电商行业有刷榜、促销活动欺诈等形式;在游戏方面有黑卡、挂机等现象;在社交方面有淫秽色情发帖、欺诈广告等现象。

梁 堃 数美科技 联合创始人&CTO

梁堃表示,面对这些欺诈行为企业采取了相应的措施,但多数企业缺乏全局的风险数据支撑和专业的反欺诈人才团队,随着UGC内容的内在复杂性越来越高,黑产技术水平与专业程度的不断提高,企业面临的挑战越来越多。

当天,基于以往的经验梁堃分享了在内容反欺诈方面的一些经验。他表示,UGC场景包括头像、昵称、发帖、弹幕、评论、个人描述、私信、群聊等,UGC带来的问题:诈骗、广告、色情、暴恐等文本、图片、语音UGC内容。同一个内容在不同的场景下含义不同,单一的关键字黑名单或单一模型极易造成大量误杀,影响用户体验,使用深度学习(RNN)、SVC善NLP技术针对语意理解的不同方面分别建立不同的模型,从多个纬度检测语意环境。采用Char & Word Embedding自动识别数万种敏感词变体、微信/QQ/手机号等联系方式变体,采用基于CRF的序列标注自动识别并排除干扰。

如今,骗子们分工明确,形成了庞大的黑色产业链。随着人工智能时代的到来,通过大数据、机器学习等技术势必将打击黑产进行到底。(文/郭敏)

原文发布于微信公众号 - 数据猿(datayuancn)

原文发表时间:2018-04-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏镁客网

为什么我们需要能读懂喜怒哀乐的AI设备?情绪识别公司Affectiva CEO给出了答案

20900
来自专栏非著名程序员

挣扎中的 App 原生开发,你需要吃下这颗定心丸

今天特别有意思,这篇文章的灵感简直就是突然乍现的。一直在想,今天的文章,我给大家推送什么?突然间,看到自己住的小区周围的商铺都在陆续开业,感觉发现了一个真理, ...

12340
来自专栏ATYUN订阅号

苹果整合机器学习和Siri团队,由John Giannandrea领导

苹果正在创建一个新的AI和ML团队,将其核心ML和Siri团队整合到负责人John Giannandrea之下。

11830
来自专栏阮一峰的网络日志

微信的历史

上周,香港的《南华早报》有一个长篇报道,介绍了微信如何变成中国用户最多的手机 App。

23520
来自专栏鹅厂网事

看,企鹅与大象如何共舞

26080
来自专栏企鹅号快讯

Facebook、Google、Amazon 是如何高效开会的

作者 孔若诚 杏仁产品经理,业余美剧、设计、哲学爱好者。头像是我偶像。 会议是工作中绕不开的一部分,许多人都听说过,在一项研究中发现,语言在我们的沟通中只占了...

28280
来自专栏EAWorld

撇开代码不说,谈谈我对架构的6个冷思考

计算机是个复杂的机器,相比普通的机器(比如小家电、汽车),它可以在使用过程中对其「工作行为」进行「再定义和场景适配」,以解决不同场景下的人的需求和问题,这种「定...

31070
来自专栏腾讯云技术沙龙

7分钟读懂《科技驱动教育,AI连接未来》沙龙重点

随着互联网和信息技术的发展,人们获取知识的方式和途径也发生着巨大的变化。尤其是从互联网到移动互联网,创造了跨时空的生活、工作和学习方式。教育也随之发生着变革,为...

24640
来自专栏镁客网

是什么推动了智能机器人的发展?

20050
来自专栏软件测试经验与教训

质量管理体系之PMO

49870

扫码关注云+社区

领取腾讯云代金券