阿里大数据竞赛第一名大神github源代码分享(O2O优惠券使用预测)

队伍简介

队伍名 “诗人都藏在水底”,三位队员分别是来自北大的wepon和charles,来自中科大的云泛天音

赛题介绍

本赛题提供用户在2016年1月1日至2016年6月30日之间真实线上线下消费行为,预测用户在2016年7月领取优惠券后15天以内是否核销。评测指标采用AUC,先对每个优惠券单独计算核销预测的AUC值,再对所有优惠券的AUC值求平均作为最终的评价标准。

解决方案

本赛题提供了用户线下消费和优惠券领取核销行为的纪录表,用户线上点击/消费和优惠券领取核销行为的纪录表,记录的时间区间是2016.01.01至2016.06.30,需要预测的是2016年7月份用户领取优惠劵后是否核销。根据这两份数据表,我们首先对数据集进行划分,然后提取了用户相关的特征、商家相关的特征,优惠劵相关的特征,用户与商家之间的交互特征,以及利用本赛题的leakage得到的其它特征(这部分特征在实际业务中是不可能获取到的)。最后训练了XGBoost,GBDT,RandomForest进行模型融合。

数据集划分

可以采用滑窗的方法得到多份训练数据集,特征区间越小,得到的训练数据集越多。以下是一种划分方式:

划取多份训练集,一方面可以增加训练样本,另一方面可以做交叉验证实验,方便调参。

特征工程

赛题提供了online和offline两份数据集,online数据集可以提取到与用户相关的特征,offline数据集可以提取到更加丰富的特征:用户相关的特征,商家相关的特征,优惠劵相关的特征,用户-商家交互特征。

另外需要指出的是,赛题提供的预测集中,包含了同一个用户在整个7月份里的优惠券领取情况,这实际上是一种leakage,比如存在这种情况:某一个用户在7月10日领取了某优惠券,然后在7月12日和7月15日又领取了相同的优惠券,那么7月10日领取的优惠券被核销的可能性就很大了。我们在做特征工程时也注意到了这一点,提取了一些相关的特征。加入这部分特征后,AUC提升了10个百分点,相信大多数队伍都利用了这一leakage,但这些特征在实际业务中是无法获取到的。

字段表

Table 1: 用户线下消费和优惠券领取行为 表名 train_offline_stage2

Field

Description

User_id

用户ID

Merchant_id

商户ID

Coupon_id

优惠券ID:null表示无优惠券消费,此时Discount_rate和Date_received字段无意义

Discount_rate

优惠率:x \in [0,1]代表折扣率;x:y表示满x减y。单位是元

Distance

user经常活动的地点离该merchant的最近门店距离是x*500米(如果是连锁店,则取最近的一家门店),x\in[0,10];null表示无此信息,0表示低于500米,10表示大于5公里;

Date_received

领取优惠券日期

Date

消费日期:如果Date=null & Coupon_id != null,该记录表示领取优惠券但没有使用,即负样本;如果Date!=null & Coupon_id = null,则表示普通消费日期;如果Date!=null & Coupon_id != null,则表示用优惠券消费日期,即正样本;

Table 2: 用户线上点击/消费和优惠券领取行为 表名 train_online_stage2

Field

Description

User_id

用户ID

Merchant_id

商户ID

Action

0 点击, 1购买,2领取优惠券

Coupon_id

优惠券ID:null表示无优惠券消费,此时Discount_rate和Date_received字段无意义。“fixed”表示该交易是限时低价活动。

Discount_rate

优惠率:x \in [0,1]代表折扣率;x:y表示满x减y;“fixed”表示低价限时优惠;

Date_received

领取优惠券日期

Date

消费日期:如果Date=null & Coupon_id != null,该记录表示领取优惠券但没有使用;如果Date!=null & Coupon_id = null,则表示普通消费日期;如果Date!=null & Coupon_id != null,则表示用优惠券消费日期;

Table 3:用户O2O线下优惠券使用预测样本 表名 prediction_stage2

Field

Description

User_id

用户ID

Merchant_id

商户ID

Coupon_id

优惠券ID

Discount_rate

优惠率:x \in [0,1]代表折扣率;x:y表示满x减y.

Distance

user经常活动的地点离该merchant的最近门店距离是x*500米(如果是连锁店,则取最近的一家门店),x\in[0,10];null表示无此信息,0表示低于500米,10表示大于5公里;

Date_received

领取优惠券日期

Table 4:选手提交表名要求统一命名为:o2o_result 字段要求如下表 其中user_id,coupon_id和date_received均来自Table 3,而Probability为预测值

Field

Description

User_id

用户ID

Coupon_id

优惠券ID

Date_received

领取优惠券日期

Probability

15天内用券概率,由参赛选手给出

特征提取:

  • 用户线下相关的特征
    • 用户领取优惠券次数
    • 用户获得优惠券但没有消费的次数
    • 用户获得优惠券并核销次数
    • 用户领取优惠券后进行核销率
    • 用户满050/50200/200~500 减的优惠券核销率
    • 用户核销满050/50200/200~500减的优惠券占所有核销优惠券的比重
    • 用户核销优惠券的平均/最低/最高消费折率
    • 用户核销过优惠券的不同商家数量,及其占所有不同商家的比重
    • 用户核销过的不同优惠券数量,及其占所有不同优惠券的比重
    • 用户平均核销每个商家多少张优惠券
    • 用户核销优惠券中的平均/最大/最小用户-商家距离
  • 用户线上相关的特征
    • 用户线上操作次数
    • 用户线上点击率
    • 用户线上购买率
    • 用户线上领取率
    • 用户线上不消费次数
    • 用户线上优惠券核销次数
    • 用户线上优惠券核销率
    • 用户线下不消费次数占线上线下总的不消费次数的比重
    • 用户线下的优惠券核销次数占线上线下总的优惠券核销次数的比重
    • 用户线下领取的记录数量占总的记录数量的比重
  • 商家相关的特征
    • 商家优惠券被领取次数
    • 商家优惠券被领取后不核销次数
    • 商家优惠券被领取后核销次数
    • 商家优惠券被领取后核销率
    • 商家优惠券核销的平均/最小/最大消费折率
    • 核销商家优惠券的不同用户数量,及其占领取不同的用户比重
    • 商家优惠券平均每个用户核销多少张
    • 商家被核销过的不同优惠券数量
    • 商家被核销过的不同优惠券数量占所有领取过的不同优惠券数量的比重
    • 商家平均每种优惠券核销多少张
    • 商家被核销优惠券的平均时间率
    • 商家被核销优惠券中的平均/最小/最大用户-商家距离
  • 用户-商家交互特征
    • 用户领取商家的优惠券次数
    • 用户领取商家的优惠券后不核销次数
    • 用户领取商家的优惠券后核销次数
    • 用户领取商家的优惠券后核销率
    • 用户对每个商家的不核销次数占用户总的不核销次数的比重
    • 用户对每个商家的优惠券核销次数占用户总的核销次数的比重
    • 用户对每个商家的不核销次数占商家总的不核销次数的比重
    • 用户对每个商家的优惠券核销次数占商家总的核销次数的比重
  • 优惠券相关的特征
    • 优惠券类型(直接优惠为0, 满减为1)
    • 优惠券折率
    • 满减优惠券的最低消费
    • 历史出现次数
    • 历史核销次数
    • 历史核销率
    • 历史核销时间率
    • 领取优惠券是一周的第几天
    • 领取优惠券是一月的第几天
    • 历史上用户领取该优惠券次数
    • 历史上用户消费该优惠券次数
    • 历史上用户对该优惠券的核销率
  • 其它特征 这部分特征利用了赛题leakage,都是在预测区间提取的。
    • 用户领取的所有优惠券数目
    • 用户领取的特定优惠券数目
    • 用户此次之后/前领取的所有优惠券数目
    • 用户此次之后/前领取的特定优惠券数目
    • 用户上/下一次领取的时间间隔
    • 用户领取特定商家的优惠券数目
    • 用户领取的不同商家数目
    • 用户当天领取的优惠券数目
    • 用户当天领取的特定优惠券数目
    • 用户领取的所有优惠券种类数目
    • 商家被领取的优惠券数目
    • 商家被领取的特定优惠券数目
    • 商家被多少不同用户领取的数目
    • 商家发行的所有优惠券种类数目

模型设计

基于以上提取到的特征,进行模型设计与融合。

  • 单模型 第一赛季只训练了XGBoost单模型提交,连续几周位居排行榜第一位。 第二赛季训练了XGBoost,GBDT,RandomForest三种单模型,其中GBDT表现最好,XGBoost次之,RandomForest相比之下最差。GBDT和XGBoost单模型在第二赛季仍然名列Top3,融合后效果更佳,尝试了以下两种方法:
  • 加权融合 得到了单模型的预测结果后,直接将概率预测值进行加权融合,我们简单地用0.65 * GBDT + 0.35 * XGBoost就得到了第一的成绩。

本文分享自微信公众号 - 大数据挖掘DT数据分析(datadw)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-09-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

“数学之美”系列二:谈谈中文分词

谈谈中文分词 --- 统计语言模型在中文处理中的一个应用 上回我们谈到利用统计语言模型进行语言处理,由于模型是建立在词的基础上的,对于中日韩等语言,首先...

34430
来自专栏机器学习人工学weekly

机器学习人工学weekly-2018/4/8

注意下面很多链接需要科学上网,无奈国情如此 1. clustering 5种算法解释 The 5 Clustering Algorithms Data Scie...

32640
来自专栏大数据文摘

随手画个圆,你是怎么画的?我们分析了10万个圆,得到了这样的结论

20240
来自专栏思影科技

脑电研究:睡眠中的婴儿大脑预测发育情况

传统观点认为九个月大之后的婴儿才能建立真正词汇的语义长程记忆,之前都处在呀呀学语的原词状态。来自德国柏林洪堡大学的学者Manuela Friedrich等人探索...

29440
来自专栏量化投资与机器学习

【精选】破解波动性突破实盘系统

1、波动性突破实盘系统介绍 1.1 系统设计思想 波动性突破, 本身带有一定程度自适应市场的特点, 为趋势跟踪系统中的上品, 我们再加入时间清仓、 顺势下轿的...

39470
来自专栏量化投资与机器学习

R语言构建追涨杀跌量化交易模型(附源代码)

作者 张丹(Conan) 来源 http://blog.fens.me Rquant前言最近有读者要求公众号推送几篇关于R语言量化投资的内容。今天推送第一篇。后...

627100
来自专栏华章科技

春招快到了,送你一份数据分析常见面试题

找了半年工作,面试了几个data science的职位,总结了一些常见的问题,在这儿抛砖引玉。

6810
来自专栏专知

【LeetCode 122】关关刷题日记25-Best Time to Buy and Sell Stock II

关关的刷题日记 25 – Leetcode 122. Best Time to Buy and Sell Stock II 题目 Say you have an...

398100
来自专栏AI科技大本营的专栏

冠军奖30万!刘强东搞了个“猪脸识别”比赛,中美两地同时启动(附比赛详细日程及赛题说明)

编辑 | Katerina Donna 润色 | 鸽子 11月6日,由京东金融与红杉资本联合主办的首届“JDD-2017京东金融全球数据探索者大会”在751大罐...

42190
来自专栏CDA数据分析师

如何选择一本优质的数据科学书籍

原作者 Radhouane Aniba 编译 CDA 编译团队 本文为 CDA 数据分析师原创作品,转载需授权 如何选书 选择一本合适的数据科学书至关重要,一...

248100

扫码关注云+社区

领取腾讯云代金券