前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >字节跳动安全AI挑战赛总结

字节跳动安全AI挑战赛总结

作者头像
老肥码码码
发布2022-04-13 16:50:37
6490
发布2022-04-13 16:50:37
举报

今天老肥和大家分享的是字节跳动安全AI挑战赛赛题小样本半监督风险识别的赛后总结,本次比赛的相关开源代码我已汇总在文章底部。

赛题描述

在真实的社交网络中,存在的作弊用户会影响社交网络平台。在真实场景中,会受到多方面的约束,我们仅能获取到少部分的作弊样本和一部分正常用户样本,现需利用已有的少量带标签的样本,去挖掘大量未知样本中的剩余作弊样本。给定一段时间内的样本,其中包含少量作弊样本,部分正常样本以及标签未知的样本。参赛者应该利用这段时间内已有的数据,提出自己的解决方案,以预测标签未知的样本是否为作弊样本。数据处理方法和算法不限,但是参赛者需要综合考虑算法的效果和复杂度,从而构建合理的解决方案。

赛题数据与评价指标

本次比赛给出的数据是T~T+N 时刻内点赞、关注事件下按比例抽样数据以及其对应账号的基础特征数据。

本赛题使用F1-score来评估模型的准召程度

F_1=\frac{2 * \text { Precision } * \text { Recall }}{\text { Precision }+\text { Recall }}

解决方案

首先明确本赛题实质上仍然是一个二分类的问题,我们也可以完全从此角度出来先构建出一个基础分类模型,然后再利用大量无标签的数据进行半监督学习来提升模型性能。

我们采用的建模方案可能相对特别一些,采用单模型LGB模型进行训练预测,主要从两张表中提取特征,用户基础信息表可以对账户本身的基础特征进行刻画,用户请求表是用户请求行为的记录,可针对此表刻画用户的行为形象,以每一条请求记录作为一条数据进行建模,最终对于每个用户取请求行为的预测概率最大值作为预测结果。

特征方案也从上述两个方面展开,基于账户本身基础特征,可以做这些类别特征的计数统计、对于粉丝量等数值特征可以做除法的交叉、登录时间和注册时间特征可以做减法交叉,基于请求行为,我们可以对机型、ip、app_version、app_channel做频数统计,对于用户的请求行为序列,我们可以构建w2v特征(把用户请求行为序列看成句子,行为看作词,训练Word2Vec模型得到每个行为的表征),对于用户的请求时间,我们可以计算请求时间的均值方差、请求时间间隔的统计特征等等。

我们也尝试使用了图网络来进行特征表示,把请求表的请求方以及被请求方作为结点,两者的请求关系作为边建立他们之间的联系,但是因为被请求方用户的id基本都不在基础信息表中,空缺了大部分特征,收益几乎为零。

当时没有进一步细挖,错过了一个重要的上分点,同时在答辩的时候看到其他团队在这方面下了巨大功夫,也取得了较高的收益,不妨作为参考。我们可以以不同的关系构图,包括IP关系、设备关系,两个用户共用同一个IP,则认为他们之间存在关联,存在边的关系,同时因为公网IP的存在,可以删除关联超过一定规模的IP。同样的,当一台设备被多个用户使用时,我们认为这多个用户存在着关联,因此就可以在这多个用户中两两构造边。

对于得到的graph embedding,我们不仅可以直接使用该向量作为特征,还可以计算该向量与已有标签用户的余弦相似度作为新维度的特征。

以上是对于一个基础分类模型的构建,我们也尝试使用一些半监督的方法,比如伪标签的思路,将基础模型用于预测无标签数据,再将置信度高的无标签数据作为有标签数据,进一步进行模型的学习,但实际上效果非常有限。其他团队有提到使用社区划分的方法(LOUVAIN算法),并且取得了性能的提升。

❝在社区划分之后,我们使用简单的规则进行社区属性的划分,即:

  • 如果一个社区里面存在的有标签用户全部属于同一标签,则该社区即属于该标签
  • 如果一个社区里面的用户都没有标签,或是当中存在两种标签的用户,则不做预测

开源方案汇总

  • 小样本赛道 2ndSolution https://github.com/Ljwccc/ByteDanceSecurityAI
  • 小样本赛道 6thSolution https://github.com/librauee/ByteDanceAI
  • 色情导流赛道 2ndSolution https://github.com/rooki3ray/2021BytedanceSecurityAICompetition_track1
  • 色情导流赛道 7thSolution https://github.com/imqxms/2021_bytedance_security_ai_track1_open
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-12-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 算法与数据之美 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 赛题描述
  • 赛题数据与评价指标
  • 解决方案
  • 开源方案汇总
相关产品与服务
弹性公网 IP
弹性公网 IP(Elastic IP,EIP)是可以独立购买和持有,且在某个地域下固定不变的公网 IP 地址,可以与 CVM、NAT 网关、弹性网卡和高可用虚拟 IP 等云资源绑定,提供访问公网和被公网访问能力;还可与云资源的生命周期解耦合,单独进行操作;同时提供多种计费模式,您可以根据业务特点灵活选择,以降低公网成本。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档