Loading [MathJax]/jax/output/CommonHTML/jax.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >字节跳动安全AI挑战赛总结

字节跳动安全AI挑战赛总结

作者头像
老肥码码码
发布于 2022-04-13 08:50:37
发布于 2022-04-13 08:50:37
7280
举报

今天老肥和大家分享的是字节跳动安全AI挑战赛赛题小样本半监督风险识别的赛后总结,本次比赛的相关开源代码我已汇总在文章底部。

赛题描述

在真实的社交网络中,存在的作弊用户会影响社交网络平台。在真实场景中,会受到多方面的约束,我们仅能获取到少部分的作弊样本和一部分正常用户样本,现需利用已有的少量带标签的样本,去挖掘大量未知样本中的剩余作弊样本。给定一段时间内的样本,其中包含少量作弊样本,部分正常样本以及标签未知的样本。参赛者应该利用这段时间内已有的数据,提出自己的解决方案,以预测标签未知的样本是否为作弊样本。数据处理方法和算法不限,但是参赛者需要综合考虑算法的效果和复杂度,从而构建合理的解决方案。

赛题数据与评价指标

本次比赛给出的数据是T~T+N 时刻内点赞、关注事件下按比例抽样数据以及其对应账号的基础特征数据。

本赛题使用F1-score来评估模型的准召程度

解决方案

首先明确本赛题实质上仍然是一个二分类的问题,我们也可以完全从此角度出来先构建出一个基础分类模型,然后再利用大量无标签的数据进行半监督学习来提升模型性能。

我们采用的建模方案可能相对特别一些,采用单模型LGB模型进行训练预测,主要从两张表中提取特征,用户基础信息表可以对账户本身的基础特征进行刻画,用户请求表是用户请求行为的记录,可针对此表刻画用户的行为形象,以每一条请求记录作为一条数据进行建模,最终对于每个用户取请求行为的预测概率最大值作为预测结果。

特征方案也从上述两个方面展开,基于账户本身基础特征,可以做这些类别特征的计数统计、对于粉丝量等数值特征可以做除法的交叉、登录时间和注册时间特征可以做减法交叉,基于请求行为,我们可以对机型、ip、app_version、app_channel做频数统计,对于用户的请求行为序列,我们可以构建w2v特征(把用户请求行为序列看成句子,行为看作词,训练Word2Vec模型得到每个行为的表征),对于用户的请求时间,我们可以计算请求时间的均值方差、请求时间间隔的统计特征等等。

我们也尝试使用了图网络来进行特征表示,把请求表的请求方以及被请求方作为结点,两者的请求关系作为边建立他们之间的联系,但是因为被请求方用户的id基本都不在基础信息表中,空缺了大部分特征,收益几乎为零。

当时没有进一步细挖,错过了一个重要的上分点,同时在答辩的时候看到其他团队在这方面下了巨大功夫,也取得了较高的收益,不妨作为参考。我们可以以不同的关系构图,包括IP关系、设备关系,两个用户共用同一个IP,则认为他们之间存在关联,存在边的关系,同时因为公网IP的存在,可以删除关联超过一定规模的IP。同样的,当一台设备被多个用户使用时,我们认为这多个用户存在着关联,因此就可以在这多个用户中两两构造边。

对于得到的graph embedding,我们不仅可以直接使用该向量作为特征,还可以计算该向量与已有标签用户的余弦相似度作为新维度的特征。

以上是对于一个基础分类模型的构建,我们也尝试使用一些半监督的方法,比如伪标签的思路,将基础模型用于预测无标签数据,再将置信度高的无标签数据作为有标签数据,进一步进行模型的学习,但实际上效果非常有限。其他团队有提到使用社区划分的方法(LOUVAIN算法),并且取得了性能的提升。

❝在社区划分之后,我们使用简单的规则进行社区属性的划分,即:

  • 如果一个社区里面存在的有标签用户全部属于同一标签,则该社区即属于该标签
  • 如果一个社区里面的用户都没有标签,或是当中存在两种标签的用户,则不做预测

开源方案汇总

  • 小样本赛道 2ndSolution https://github.com/Ljwccc/ByteDanceSecurityAI
  • 小样本赛道 6thSolution https://github.com/librauee/ByteDanceAI
  • 色情导流赛道 2ndSolution https://github.com/rooki3ray/2021BytedanceSecurityAICompetition_track1
  • 色情导流赛道 7thSolution https://github.com/imqxms/2021_bytedance_security_ai_track1_open
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-12-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 算法与数据之美 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
NeurIPS 2018 AutoML挑战赛落幕:印度团队第一,清华第二
近日,由第四范式、ChaLearn、微软和阿卡迪亚大学联合举办的《The 3rd AutoML Challenge: AutoML for Lifelong Machine Learning》挑战赛落下帷幕。自 8 月份上线以来,本次赛事吸引了二百余支队伍参赛,其中包括 MIT、UC Berkeley、清华大学、北京大学等国内外顶尖高校,微软、腾讯、阿里巴巴等科技巨头,Rapids.ai 等新兴创业公司,以及一些来自开源社区的开发者。
机器之心
2018/12/24
9110
NeurIPS 2018 AutoML挑战赛落幕:印度团队第一,清华第二
CVPR VISION 23挑战赛第1赛道亚军解决方案 - 数据高效缺陷检测
CVPR VISION 23挑战赛第1赛道 "数据智能缺陷检测 "要求参赛者在数据缺乏的环境下对14个工业检测数据集进行实例分割。本论文的方法聚焦于在有限训练样本的场景下提高缺陷掩模的分割质量的关键问题。基于混合任务级联(HTC)实例分割算法,我们用受CBNetv2启发的复合连接将transformer骨干(Swin-B)连接起来以增强基准结果。此外,我们提出了两种模型集成方法来进一步增强分割效果:一种是将语义分割整合到实例分割中,另一种是采用多实例分割融合算法。最后,通过多尺度训练和测试时数据增强(TTA),我们在数据高效缺陷检测挑战赛的测试集上获得了高于48.49%的平均mAP@0.50:0.95和66.71%的平均mAR@0.50:0.95。论文链接:https://arxiv.org/abs/2306.14116 代码链接:https://github.com/love6tao/
BBuf
2023/08/22
6450
CVPR VISION 23挑战赛第1赛道亚军解决方案 - 数据高效缺陷检测
一文解读CVPR等9个顶会挑战赛冠军团队方案,助你参悟AI算法设计之道
想成为下一个刷爆挑战赛榜单的冠军?这份复习材料涵盖 CVPR、ICCV 等顶会挑战赛的优胜算法方案,无论你是挑战赛老司机,还是新晋小白,相信对你参悟竞赛道路都会有所帮助。 本篇是机器之心「虎卷er行动 · 春卷er」的第三卷,为老伙计们汇总解读 9 个刷爆 AI 顶会挑战赛榜单的优胜算法方案。 1、CVPR 2021 NTIRE 2021 挑战赛多帧 HDR 成像冠军方案:使用新型的双分支网络结构 ADNet(旷视科技团队) NTIRE 2021 挑战赛 作为图像视频修复和增强领域极具影响力的国际竞赛
机器之心
2022/03/21
1.3K0
小程序云开发挑战赛Q&A
由微信小程序与腾讯云云开发联合举办的2020小程序云开发挑战赛已于近日官宣,正在火热报名中。 为了开发者能更方便地报名参赛并进行作品和服务的开发,我们盘点了大家最关心的赛事问题,在此统一为大家进行解答: 赛题相关 请问本次大赛可以做什么方向的题材应用,有什么限制? 本次大赛应用限定为应用解决方案类型,方向不限,可以自由发挥,但作品应当符合互联网合法性,应当遵守现行法律法规。 赛题提到的综合利用云开发各种能力,是必须全部使用嘛? 非必须,根据自己的作品合理使用需要的功能即可,不需要的可以不用使用;作品允
腾讯云开发TCB
2020/08/14
1.1K0
无人车车道线检测挑战赛心得分享
在今年3月份结束的AI Studio无人车车道线检测挑战赛中,参赛选手王林华取得了总决赛第二名的好成绩。赛后选手积极投稿,分享了从备赛到参赛过程中的宝贵经验,获得了额外1000元京东卡的稿费奖励。
用户1386409
2019/07/16
1.5K0
无人车车道线检测挑战赛心得分享
2022微信大数据挑战赛优胜方案总结
每天给你送来NLP技术干货! ---- 来自:炼丹笔记 赛题介绍 比赛名称:微信多模态短视频 比赛页面:https://algo.weixin.qq.com/ 比赛类型:多模态分类 多模态短视频分类是视频理解领域的基础技术之一,在安全审核、推荐运营、内容搜索等领域有着十分非常广泛的应用。一条短视频中通常包含有三种模态信息,即文本、音频、视频,它们在不同语义层面的分类体系中发挥着相互促进和补充的重要作用。 本赛题要求参赛队伍基于微信视频号短视频数据以及对应的分类标签标注,采用合理的机器学习技术对指定的测试
zenRRan
2022/09/27
9120
2022微信大数据挑战赛优胜方案总结
ROS机器人虚拟仿真挑战赛学习笔记
F1TENTH线上仿真赛,乃无人车竞速之盛事,以ROS机器人操作系统与Gazebo仿真平台为核,为参赛者构建逼真之虚拟世界,以测试优化其自动驾驶之算法与策略。无硬件之限,参赛者可大胆尝试,创新自动驾驶之技术,推动其前沿发展。
zhangrelay
2024/05/26
2130
ROS机器人虚拟仿真挑战赛学习笔记
小程序云开发挑战赛初赛作品投票开启
转眼间,由微信小程序团队与腾讯云云开发团队联合举办的2020小程序云开发挑战赛已于9月20日关闭作品提交入口,赛事也正式进入到初赛环节! 本次挑战赛共有近1700支队伍踊跃报名参赛,在为期45天的小程序云开发的创作环节中,参赛者们通过多方位思考确定方案,借助云开发,结合现实场景打造出众多极具应用价值的激情之作。最终,经过大赛组委会评委评审,优选出了300+作品进入到初赛阶段。 赛事在尽可能保证作品专业性的基础上,秉持着好的作品一定是由大众认可和选择的原则,邀请广大网友前来投票,选出你最喜爱的参赛作品!
腾讯云开发TCB
2020/09/23
2690
字节跳动安全Ai挑战赛-基于文本和多模态数据的风险识别总结
本次比赛是最近比较火热的多模态比赛,业务和数据比较接近真实场景,任务比较有趣。我们队伍“石碑村”,队员有华仔、致Great,最终决赛取得第五名成绩,下面主要给大家分享下我们队伍的建模思路和方案,希望能够对大家有所帮助。
致Great
2022/10/28
1.7K1
字节跳动安全Ai挑战赛-基于文本和多模态数据的风险识别总结
字节跳动安全Ai挑战赛-小样本赛道方案总结字节跳动安全Ai挑战赛-小样本赛道方案总结
在真实的社交网络中,存在的作弊用户会影响社交网络平台。在真实场景中,会受到多方面的约束,我们仅能获取到少部分的作弊样本和一部分正常用户样本,现需利用已有的少量带标签的样本,去挖掘大量未知样本中的剩余作弊样本。 给定一段时间内的样本,其中包含少量作弊样本,部分正常样本以及标签未知的样本。参赛者应该利用这段时间内已有的数据,提出自己的解决方案,以预测标签未知的样本是否为作弊样本。 数据处理方法和算法不限,但是参赛者需要综合考虑算法的效果和复杂度,从而构建合理的解决方案。
致Great
2021/12/09
4860
字节跳动安全Ai挑战赛-小样本赛道方案总结字节跳动安全Ai挑战赛-小样本赛道方案总结
AI Challenger全球AI挑战赛开幕,300万奖金池,还可能获李开复投资
投入千万元资金,新增10余个高质量数据集,由企业、大学和政府联合推动,2018 AI Challenger 全球AI挑战赛今天正式拉开帷幕。
量子位
2018/09/29
6170
AI Challenger全球AI挑战赛开幕,300万奖金池,还可能获李开复投资
从机器翻译来看中国最酷AI挑战赛:赛手体验放第一位
李飞飞在整个学术界和工业界的重心都放在如何做出更好的算法时,她不顾一切质疑和阻挠创建了ImageNet数据集,至此世人再难复制ImageNet创立过的辉煌。同样,参加了第一届ImageNet挑战赛的竞赛优胜者,现在都出任了百度、谷歌和华为等公司高管(如林元庆,余凯,张潼)。还有些在获奖算法基础上创立公司,如马修•泽勒(Matthew Zeiler)2013年赢得ImageNet挑战赛后,创办了Clarifai公司,之后获得了4000万美元风险投资。 2014年的ImageNet挑战赛冠军中的两位牛津大学研究
AI科技评论
2018/03/14
1.1K0
从机器翻译来看中国最酷AI挑战赛:赛手体验放第一位
ChatGLM金融大模型挑战赛赛题总结
https://tianchi.aliyun.com/competition/entrance/532126/information
数据STUDIO
2023/11/20
5290
ChatGLM金融大模型挑战赛赛题总结
文本点击率预估挑战赛-冠亚季军方案总结
搜索中一个重要的任务是根据query和title预测query下doc点击率,本次大赛参赛队伍需要根据脱敏后的数据预测指定doc的点击率,结果按照指定的评价指标使用在线评测数据进行评测和排名,得分最优者获胜。
致Great
2021/01/18
7820
助力AI创新众智生态,全球首个十亿像素级CV挑战赛GigaVision圆满落幕
允中 发自 凹非寺 量子位 | 公众号 QbitAI 围绕十亿像素级计算机视觉技术的2022 GigaVision 挑战赛,在经历四个月的激烈角逐后,于近日落下帷幕。 2022 GigaVision挑战赛开放百万元奖金池,面向全球高等院校、研究机构、高新企业及个人爱好者征集原创算法。 不同于其它视觉算法挑战赛,GigaVision挑战赛是全球首个针对大场景、多对象及复杂关系问题的智能算法比赛,是新一代人工智能算法的试金石。 依托自研的亿像素光场成像设备,大赛构建了具有宽视场、高分辨率的GigaVision
量子位
2023/02/28
2840
助力AI创新众智生态,全球首个十亿像素级CV挑战赛GigaVision圆满落幕
第四届魔镜杯大赛数据应用大赛方案分享(亚军)
资金流动性管理迄今仍是金融领域的经典问题。在互联网金融信贷业务中,单个资产标的金额小且复杂多样,对于拥有大量出借资金的金融机构或散户而言,资金管理压力巨大,精准地预测出借资金的流动情况变得尤为重要。本次比赛以互联网金融信贷业务为背景,以《现金流预测》为题,希望选手能够利用我们提供的数据,精准地预测资产组合在未来一段时间内每日的回款金额。
Coggle数据科学
2019/09/12
8201
第四届魔镜杯大赛数据应用大赛方案分享(亚军)
清华大学朱文武团队夺冠AAAI 2021国际深度元学习挑战赛
近日,国际人工智能顶级会议 AAAI 2021 召开,清华大学朱文武教授团队的 Meta_Learners 团队在 AAAI 2021 国际深度元学习挑战赛(MetaDL Challenge)中夺得冠军。该团队在最终阶段的隐藏测试数据集上取得了 40.4% 的准确率,以高于第二名 13% 性能的大幅度领先强势摘得桂冠。
机器之心
2021/03/15
2000
清华大学朱文武团队夺冠AAAI 2021国际深度元学习挑战赛
【极客挑战赛】手打强者竟是这样逆袭TOP3!?
导语 | 在腾讯云+社区联合腾讯码客、腾讯安全平台部全新打造的创新赛事【腾讯极客挑战赛 | 鹅罗斯方块】中,在短暂10天内,4570名参赛者或以自己的硬核技术诠释着 “代码无所不能”;或坚持游戏主义,手玩出一片天。今天小编邀请到的就是超强手打玩家——汪好盛。他以硬核手打与AI技能双管齐下,最终脱颖而出、斩获季军! 大佬这样说 AI与手打同时尝试打分,最后提交的最高成绩是手打成绩,主要思路是尽可能堆高后进行消4,依据序列的情况妥协进行消3.2,通过本地实现一个模拟器提供各种信息来辅助整个流程。AI算法思
腾讯云开发者
2021/09/03
4420
DataFountain训练赛汇总,成长在于不断学习
背景:随着数据量的不断积累,海量时序信息的处理需求日益凸显。作为时间序列数据分析中的重要任务之一,时间序列分类应用广泛且多样。时间序列分类旨在赋予序列某个离散标记。传统特征提取算法使用时间序列中的统计信息作为分类的依据。近年来,基于深度学习的时序分类取得了较大进展。基于端到端的特征提取方式,深度学习可以避免繁琐的人工特征设计。如何对时间序列中进行有效的分类,从繁芜丛杂的数据集中将具有某种特定形态的序列归属到同一个集合,对于学术研究及工业应用具有重要意义。
致Great
2020/12/29
8130
「十亿像素」引领视觉智能技术变革,2022 GigaVision挑战赛圆满落幕
机器之心原创 作者:蛋酱 在十亿像素级数据平台的支撑下,GigaVision 系列赛事秉承「以赛促研、以赛促用」的理念,将持续推动更多前沿性、原创性视觉智能技术的突破。 2012 年,深度学习在 ImageNet 图像挑战赛中取得了巨大的突破,被广泛认为是第三次人工智能革命的标志性事件。以此为开端,十多年间,从人脸识别、跟踪到动作识别,围绕各类视觉智能任务的技术都取得了显著的进展,人工智能理论与技术的大变革时代终于到来。 2017 年,国务院发布《新一代人工智能发展规划》,描绘了中国人工智能未来发展的宏伟
机器之心
2023/02/28
6630
「十亿像素」引领视觉智能技术变革,2022 GigaVision挑战赛圆满落幕
推荐阅读
相关推荐
NeurIPS 2018 AutoML挑战赛落幕:印度团队第一,清华第二
更多 >
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文