前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Kaggle winner 方案 | Instacart Market Basket Analysis: 2nd place

Kaggle winner 方案 | Instacart Market Basket Analysis: 2nd place

作者头像
杨熹
发布2018-04-03 16:33:07
9680
发布2018-04-03 16:33:07
举报
文章被收录于专栏:杨熹的专栏杨熹的专栏

今天来看看 Instacart Market Basket Analysis competition 的第二名方案,作者是 Yahoo! JAPAN 的一个数据科学家 Kazuki Onodera (aka ONODERA on Kaggle)

这个比赛是要根据顾客的历史购买记录,预测 Instacart 的消费者将再次购买哪种商品,这样可以在顾客需要这个商品的时候,货源是充足的。

模型:

用 XGBoost 建立两个模型,分别预测

  1. 之前购买的哪种商品会出现在下次购物篮里, (用 6个GBDT 结果的平均值作为商品出现在用户下次购物中的预测概率)
  2. 顾客的下一次购物是否包含任何一种之前购买过的商品。 (用 17 个 GBDT 的结果的加权平均作为用户下次购物中完全没有之前商品的概率)
特征:

分别从 顾客,商品,用户*商品,时间 的角度建立,下面列其中一些特征

顾客:

  1. How often the user reordered items
  2. Time between orders
  3. Time of day the user visits
  4. Features based on order sizes
  5. How many of the user’s orders contained no previously purchased items

商品:

  1. How often the item is purchased
  2. How many users buy it as "one shot" item
  3. Distribution of the day of week it is ordered
  4. Statistics around the time between orders
  5. Probability of being reordered within N orders
  6. Probability it is reordered after the first order

用户*商品:

  1. Number of orders in which the user purchases the item
  2. Days since the user last purchased the item
  3. Replacement items
  4. Whether the user already ordered the item today

时间:

  1. Counts by day of week
  2. Counts by hour
评估指标:

用 F1 得到概率

然后挑选阈值将概率转化为二进制 1/0 (Yes/No) 不同的购物记录它们的阈值也是不同的


学习资料: http://blog.kaggle.com/2017/09/21/instacart-market-basket-analysis-winners-interview-2nd-place-kazuki-onodera/

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018.01.05 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 模型:
  • 特征:
  • 评估指标:
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档