人工智能时代，如何做好内容审核和流量反作弊？

数据猿

发布于 2018-05-31 15:42:48

3K0

发布于 2018-05-31 15:42:48

文章被收录于专栏：数据猿

【数据猿导读】4月21日，由DataFun、数据猿联合微软加速器主办的主题为“人工智能时代：内容审核与流量反作弊”活动在微软亚太研发集团总部举行。本期活动邀请了曾参与、负责360等多家公司内容开放平台建设的资深算法研发工程师刘路、爱奇艺流量反作弊项目负责人张晓明和数美科技联合创始人&CTO梁堃从内容、流量等方面分享了人工智能时代，平台的内容审核与流量反作弊是如何完成的。

记者 | 郭敏

官网 | www.datayuan.cn

微信公众号ID | datayuancn

近日，短视频APP成为众矢之的。因相关短视频内容涉未成年人低俗不良信息，国家网信办相继约谈了快手和今日头条旗下火山小视频相关负责人，提出严肃批评并责令全面整改。之后，微信、QQ也将在互联网短视频整治期间暂停短视频APP外链直接播放功能，涉及的APP包括微视、快手、抖音、西瓜视频等。

新媒体时代，用户每天生产的内容都在爆发式增长，在这些新生产的内容里通常存在着大量的不良内容，会使得用户产生反感，甚至触犯法律，这时就需要对这些新生产的内容进行审核，而传统的人工审核方式已经跟不上爆发式增长的内容量，人工智能时代，如何做好内容开放平台建设成为业内人士关注的热点。

4月21日，由DataFun、数据猿联合微软加速器主办的主题为“人工智能时代：内容审核与流量反作弊”活动在微软亚太研发集团总部举行。本期活动邀请了曾参与、负责360等多家公司内容开放平台建设的资深算法研发工程师刘路、爱奇艺流量反作弊项目负责人张晓明和数美科技联合创始人&CTO梁堃从内容、流量等方面分享了人工智能时代，平台的内容审核与流量反作弊是如何完成的。

当下，内容开放平台有三种类型：用户生产内容、专业生产内容和职业生产内容。大众点评、地图属于典型的用户生产内容；豆瓣、知乎属于典型的专业生产内容；微信公众号、抖音属于职业生产内容。内容开放平台的强社交性、强随机性和强运营性带来的主要问题和矛盾为广告主和消费者之间的矛盾，内容质量和内容之间的矛盾以及流量和质量之间的矛盾。

刘路资深算法研发工程师

刘路认为建设一个行之有效的信用体系是内容开放平台解决这些矛盾的关键。一个常规的信用体系建设架构涉及到内容生产者和用户。内容生产者提交了内容之后去做个人信用和内容审核，审核需要利用大数据风控和信用评级功能，如果审核不通过内容生产者需要进行申诉，两方面审核均通过则可发布内容，之后可进行AB测试和分级发布，而内容发布之后需要进行风险评估，从而判断该内容是否需要召回，并设置相应的召回策略。

刘路特别指出，在内容方面需要设置层层关卡，低信用内容需要被内容信任监控，高信用内容则需设置内容被举报监控，从而最大程度地清除内容开放平台的不合规内容。

当下，视频网站已经形成一条灰色产业链，一些视频平台默认刷量行为，广告展现量中超过20%是虚假的。同时，刷量的流程已经高度程序化，业界缺乏合理的监管。而对于广告主，流量造假与欺诈行为无异。如今，各大视频网站发展十分迅速，如何在用户量较大的情况下，做好流量反作弊？爱奇艺流量反作弊项目负责人张晓明分享了爱奇艺流量反作弊的“术”与“道”。

张晓明爱奇艺流量反作弊项目负责人研究员

在业界，对于流量反作弊并没有统一的定义，在张晓明看来流量反作弊是制造非用户产生或带有一定目的性的数据，并且有机器作弊和人工作弊两种形式。其中机器作弊包括模仿投递日志、调用接口，这种形式设定模式相对固定，短期效果明显；人工作弊则包括微信群、QQ群以及由专人指导的专业APP，指导操作并与用户分成，这种模式不固定，效果与组织规模有关。

利用这两模式进行直播刷人气、网站刷广告、电视剧和商品刷流量，会使得正常用户对产品的判定标准失衡、企业信誉受损、数据分析不准确和成本上升等多种伤害。

在张晓明看来，流量反作弊具有被动防守、事后分析，业务场景复杂、没有通用模型，持续旧规则不断更新新规则等特点，如何进行有效地流量反作弊？基于以往的业务经验，张晓明表示，进行行之有效的流量反作弊需要做好前期的准备工作：掌握投递日志或者数据库中的元数据含义，掌握主体业务的工作模式和场景，避免信息孤岛，了解作弊的目的是什么以及与业务部门进行良好的沟通确认作弊的口径并做好保密工作。准备工作完成之后，在技术方面进行IP信誉、安全画像、加密信息检测和设备硬件信息检测；在业务方面进行规则统计和机器学习。

随着移动互联网的发展，人们的衣、食、住、行各个方面都结合在了一起，这给黑色产业带来了很大的盈利空间。在金融领域有借贷欺诈、盗卡交易、洗钱套现等模式；在电商行业有刷榜、促销活动欺诈等形式；在游戏方面有黑卡、挂机等现象；在社交方面有淫秽色情发帖、欺诈广告等现象。

梁堃数美科技联合创始人&CTO

梁堃表示，面对这些欺诈行为企业采取了相应的措施，但多数企业缺乏全局的风险数据支撑和专业的反欺诈人才团队，随着UGC内容的内在复杂性越来越高，黑产技术水平与专业程度的不断提高，企业面临的挑战越来越多。

当天，基于以往的经验梁堃分享了在内容反欺诈方面的一些经验。他表示，UGC场景包括头像、昵称、发帖、弹幕、评论、个人描述、私信、群聊等，UGC带来的问题：诈骗、广告、色情、暴恐等文本、图片、语音UGC内容。同一个内容在不同的场景下含义不同，单一的关键字黑名单或单一模型极易造成大量误杀，影响用户体验，使用深度学习（RNN）、SVC善NLP技术针对语意理解的不同方面分别建立不同的模型，从多个纬度检测语意环境。采用Char & Word Embedding自动识别数万种敏感词变体、微信／QQ／手机号等联系方式变体，采用基于CRF的序列标注自动识别并排除干扰。

如今，骗子们分工明确，形成了庞大的黑色产业链。随着人工智能时代的到来，通过大数据、机器学习等技术势必将打击黑产进行到底。（文/郭敏）

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2018-04-23，如有侵权请联系 cloudcommunity@tencent.com 删除

人工智能