Kaggle winner 方案 | Instacart Market Basket Analysis: 2nd place

今天来看看 Instacart Market Basket Analysis competition 的第二名方案,作者是 Yahoo! JAPAN 的一个数据科学家 Kazuki Onodera (aka ONODERA on Kaggle)

这个比赛是要根据顾客的历史购买记录,预测 Instacart 的消费者将再次购买哪种商品,这样可以在顾客需要这个商品的时候,货源是充足的。

模型:

用 XGBoost 建立两个模型,分别预测

  1. 之前购买的哪种商品会出现在下次购物篮里, (用 6个GBDT 结果的平均值作为商品出现在用户下次购物中的预测概率)
  2. 顾客的下一次购物是否包含任何一种之前购买过的商品。 (用 17 个 GBDT 的结果的加权平均作为用户下次购物中完全没有之前商品的概率)

特征:

分别从 顾客,商品,用户*商品,时间 的角度建立,下面列其中一些特征

顾客:

  1. How often the user reordered items
  2. Time between orders
  3. Time of day the user visits
  4. Features based on order sizes
  5. How many of the user’s orders contained no previously purchased items

商品:

  1. How often the item is purchased
  2. How many users buy it as "one shot" item
  3. Distribution of the day of week it is ordered
  4. Statistics around the time between orders
  5. Probability of being reordered within N orders
  6. Probability it is reordered after the first order

用户*商品:

  1. Number of orders in which the user purchases the item
  2. Days since the user last purchased the item
  3. Replacement items
  4. Whether the user already ordered the item today

时间:

  1. Counts by day of week
  2. Counts by hour

评估指标:

用 F1 得到概率

然后挑选阈值将概率转化为二进制 1/0 (Yes/No) 不同的购物记录它们的阈值也是不同的


学习资料: http://blog.kaggle.com/2017/09/21/instacart-market-basket-analysis-winners-interview-2nd-place-kazuki-onodera/

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据挖掘DT机器学习

PageRank算法(2):PageRank原理剖析

一、PageRank算法的简单举例 Google PageRank算法的思想精华在于:将一个网页级别/重要性的排序问题转化成了一个公共参与、以群体民主投票的方式...

6046
来自专栏智能计算时代

机器学习与文本分析

image.png 原文作者:微软研究院杰出科学家Ashok Chandra博士,项目经理Dhyanesh Narayanan 译者:张鑫 ? 上个世纪七十年代...

3966
来自专栏人工智能LeadAI

我与Python | 从Hacker到探索Deep Learning

为什么是Python 人生苦短,我用Python... ? 'Life is short, you need Python!' 进入大学之后,我们逐渐“被教授”...

4497
来自专栏Pulsar-V

SLAM初探(三)

PCL(Point cloud library) Ubuntu Linux 16 系统之所以会用Linux,很大的原因是应为SLAM在嵌入式平台上面...

3515
来自专栏AI2ML人工智能to机器学习

机器学习平台的优化器 (优化篇)

在 " 机器学习平台的优化器 (平台篇)"里面, 我们简介了平台们,和什么是优化器。 这里我们开始介绍不同平台的优化。 我们把相同编程语言的优化器放在一起,...

1732
来自专栏张俊红

数据可视化入门篇

总第74篇 本篇要点: 01、数据可视化是什么 02、数据可视化的一般流程 03、常见的数据种类 04、通过可视化你想表达什么信息 05、选择具体的可视化形式...

4199
来自专栏新智元

【机器学习爆款App技术解读】如何用“摄像头秒解数独”

【新智元导读】最近一款名叫 Magic Sudoku(魔法数独)的 App 火了,这款 App 能够“用摄像头解数独”,使用了计算机视觉、机器学习和增强现实技术...

4158
来自专栏大数据文摘

一位缺觉的父亲记录了他双胞胎宝宝的睡眠数据 并交给机器学习,结果……

2056
来自专栏磐创AI技术团队的专栏

推荐 | 7个你最应该知道的机器学习相关github项目

来源 | Analytics Vidhya 编译 | 磐石 出品 | 磐创AI技术团队 磐创AI导读:本文介绍了github上最近比较火的7个机器学习项目,每...

3524
来自专栏AI研习社

为计算机视觉生成庞大的、合成的、带标注的、逼真的数据集

我想要给大家分享一个我们在Greppy一直使用的测试版工具,其被称之为”Greepy Metaverse“,其通过快速、简便地为机器学习生成大量训练数据,来辅助...

962

扫码关注云+社区

领取腾讯云代金券