京东JData算法大赛-高潜用户购买意向预测(github源码)

github地址:

在公众号 datadw 里 回复 京东 即可获取。

这是一位热心的参赛者提供的一份入门程序,涵盖了数据清洗、数据(统计)分析、特征抽取、搭建模型、模型评估,这些机器学习通用的完整流程,对于初学者来说可以作为参考。

上面的连接中有相关的说明,如:

data_cleaning.ipynb 数据清洗 data_analysis.ipynb 数据分析 exlpore_potential_user.ipynb 探索高潜用户行为

其他都是.py的python文件,无需额外说明,上面这几个.ipynb是可导入jupyter notebook的文件,如果没有安装的话需要先安装jupyter notebook,然后upload上面几个文件即可。

一 基础数据介绍:

官网上其实已经有了描述,这里为了方便查看,再次列出:

1. 用户数据 - JData_User.csv user_id 用户ID 脱敏 age 年龄段 -1表示未知 sex 性别 0表示男,1表示女,2表示保密 user_lv_cd 用户等级有顺序的级别枚举,越高级别数字越大 user_reg_tm 用户注册日期粒度到天 2. 商品数据 - JData_Product.csv sku_id 商品编号 脱敏 a1 属性1 枚举,-1表示未知 a2 属性2 枚举,-1表示未知 a3 属性3 枚举,-1表示未知 cate 品类ID 脱敏 brand 品牌ID 脱敏 3. 评价数据 - JData_Comment.csv dt 截止到时间 粒度到天 sku_id 商品编号 脱敏 comment_num 累计评论数分段0表示无评论,1表示有1条评论, 2表示有2-10条评论, 3表示有11-50条评论, 4表示大于50条评论 has_bad_comment 是否有差评0表示无,1表示有 bad_comment_rate 差评率差评数占总评论数的比重 4. 行为数据 - JData_Action_201602.csv,JData_Action_201604.csv,JData_Action_201603.csv user_id 用户编号 脱敏 sku_id 商品编号 脱敏 time 行为时间 model_id 点击模块编号,如果是点击脱敏 type 1.浏览(指浏览商品详情页); 2.加入购物车;3.购物车删除;4.下单;5.关注;6.点击 cate 品类ID 脱敏 brand 品牌ID 脱敏

二 任务描述: 参赛者需要使用京东多个品类下商品的历史销售数据,构建算法模型,预测用户在未来5天内,对某个目标品类下商品的购买意向。对于训练集中出现的每一个用户,参赛者的模型需要预测该用户在未来5天内是否购买目标品类下的商品以及所购买商品的SKU_ID。评测算法将针对参赛者提交的预测结果,计算加权得分。

三 程序详解

这里对这位作者的程序进行一下简单解析,可供初学者参考,因为是自己的理解,可能有不当之处,欢迎大家批评指出。

3.1 数据清洗 data_cleaning.ipynb

数据与程序在相同目录,/data文件夹下,如下图,比大赛提供的数据多了JData_Action_201603_extra.csv【作者在git中已经说明,这个是前面一版的数据,从代码中删除这个文件相关的代码即可】,JData_User_New.csv,user_table.csv,item_table.csv四个文件,这是其他程序生成的。其中,item_table.csv由create_item_table.py生成,user_table.csv由create_user_table.py生成;JData_User_New.csv由explore_data.py生成。

文件执行顺序:

1、 生成缺失的三个文件,这一步的目的,是把文件中的数据按照商品和用户两个维度进行聚合

执行顺序:

python create_item_table.py

python explore_data.py

python create_user_table.py

执行时间较长,但完成后,可以在data/目录下看到新生成的三个文件,注意检验数据条数是否一致

2、缺失文件生成完成后,就可以进行数据清洗和分析了

(2-1)数据分析

进入到我们下载上面程序的目录,在这个目录下启动jupyter notebook:

直接点击data_analysis.ipynb查看即可,这里是在notebook中通过pandas,numpy和matplotlib查看数据的统计特征,进行初步分析

(2-2)数据清洗

查看data_cleaning.ipynb,这里面有原作者的详细描述,介绍了一种数据清洗方法,大家可以在这里改为自己的清洗策略

3、高潜用户行为分析,查看explore_potential_user.ipynb即可,这里是原作者对高潜用户的一些定义,大家可以根据自己的理解修改或调整阈值

4、挖掘过程和结果:

python potential_user.py

简要说明:

find_buy_user函数,查找2,3,4月有购买行为的用户记录(type=4,已去重),保留"user_id", "sku_id"字段,含义分别为用户id,商品id,结果数据存储到了buy_user_list.csv

find_potential_user,查找潜在用户,使用策略为:先读取buy_user_list.csv,取出有购买行为的用户;然后通过ui_record_in_batch_data方法,拿到用户的行为序列(不只是购买行为);more_than_a_day方法:最后购买日期:行为序列中,购买类型行为的最后日期(last_buy_day);最早行为日期(earliest_behave_day):对某商品有浏览等行为的最早日期,这里对用户的意向打了一个标签,当last_buy_day>earliest_behave_day时,则标记potential_flag 为1;否则标记为0

意义:这里标签的定义方式为,如果用户对某个商品,有从浏览,到最终购买的行为链条,则可以说明用户对该商品有购买意向;否则说明没有。

当然,上述标签只是原作者的一种定义方式,可能并不符合我们的设想,我们可以针对这里进行改进。例如,多次浏览同一商品,有关注,或加入购物车行为都可以认为是有意向,只是强弱不同,这样,可以构造特征集合,并使用逻辑回归进行分类。

将记录自己的策略更新过程。

一 数据特征统计分析

几个主要的点:

(1)各类行为与转化(购买)之间的关联关系,包括浏览、加入购物车、关注

(2)已购商品的复购率

(3)性别与商品的关联程度

二 特征提取

包括用户特征,商品特征,和用户历史行为特征

三 模型构建

1、商品候选集确认 - 用户&相关商品,不应该是整个商品集;可能使用到关联分析,协同过滤

2、模型选择 - 分类

3、代码编写与参数调整

4、效果评估与迭代优化

以下分别按照上面描述进行整理。

二 操作

1、用户id数据预处理

用户行为数据,提供的JData_Action_201602.csv 中的user_id是浮点型,都带了个.0,直接跟JData_User.csv关联稍有麻烦,当然主要是看着不爽,所以先把几个action文件的数据规范化

(1)格式化user_id 【使用awk 命令,gsub函数】

awk '$0 ~ /.0,/ {gsub(".0,", ",", $0); print}' JData_Action_201602.csv > Format_JData_Action_201602.csv

(2)用户行为合并

原始数据中,用户的行为是每行一条数据,无法形成行为序列,所以这里加一步中间数据的处理,便于分析用户的商品浏览到购买的全流程行为。给的文件字段说明,是'user_id','sku_id','time','model_id','type','cate','brand' 七个字段,但解析的过程中发现,有不少记录按照逗号分割后,是6个,例如:

266079.0,138778,2016-01-31 23:59:02,,1,8,403

266079.0,138778,2016-01-31 23:59:03,0,6,8,403

200719.0,61226,2016-01-31 23:59:07,,1,8,30

追查后,发现是第一步处理时导致部分空值丢失。。所以重写编写了脚本,这里一并完成user_id的处理在脚本中实现。

(2.1)用户维度聚合

(2.2)用户维度,同一个商品的行为序列再次聚合,一个商品一个元组

(3)正样本提取

先明确一下正负样本的定义:

正样本:有过非购买行为,且有购买行为的用户记录(针对同一商品)

负样本:有过浏览等行为,但最终没有购买行为的用户记录

初步的目标,就是从有非购买行为,且有购买行为的用户中,分析出其中隐藏的规律,并利用这个规律,对其他有行为的用户进行购买行为的预测

上面为热心参赛者的代码和流程。以下将记录自己的策略更新过程。

一 数据特征统计分析

几个主要的点:

(1)各类行为与转化(购买)之间的关联关系,包括浏览、加入购物车、关注

(2)已购商品的复购率

(3)性别与商品的关联程度

二 特征提取

包括用户特征,商品特征,和用户历史行为特征

三 模型构建

1、商品候选集确认 - 用户&相关商品,不应该是整个商品集;可能使用到关联分析,协同过滤

2、模型选择 - 分类

3、代码编写与参数调整

4、效果评估与迭代优化

以下分别按照上面描述进行整理。

二 操作

1、用户id数据预处理

用户行为数据,提供的JData_Action_201602.csv 中的user_id是浮点型,都带了个.0,直接跟JData_User.csv关联稍有麻烦,当然主要是看着不爽,所以先把几个action文件的数据规范化

(1)格式化user_id 【使用awk 命令,gsub函数】

awk '$0 ~ /.0,/ {gsub(".0,", ",", $0); print}' JData_Action_201602.csv > Format_JData_Action_201602.csv

(2)用户行为合并

原始数据中,用户的行为是每行一条数据,无法形成行为序列,所以这里加一步中间数据的处理,便于分析用户的商品浏览到购买的全流程行为。给的文件字段说明,是'user_id','sku_id','time','model_id','type','cate','brand' 七个字段,但解析的过程中发现,有不少记录按照逗号分割后,是6个,例如:

266079.0,138778,2016-01-31 23:59:02,,1,8,403

266079.0,138778,2016-01-31 23:59:03,0,6,8,403

200719.0,61226,2016-01-31 23:59:07,,1,8,30

追查后,发现是第一步处理时导致部分空值丢失。。所以重写编写了脚本,这里一并完成user_id的处理在脚本中实现。

(2.1)用户维度聚合

(2.2)用户维度,同一个商品的行为序列再次聚合,一个商品一个元组

(3)正样本提取

先明确一下正负样本的定义:

正样本:有过非购买行为,且有购买行为的用户记录(针对同一商品)

负样本:有过浏览等行为,但最终没有购买行为的用户记录

初步的目标,就是从有非购买行为,且有购买行为的用户中,分析出其中隐藏的规律,并利用这个规律,对其他有行为的用户进行购买行为的预测。

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2017-12-02

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏专知

耶鲁大学发布自然语言处理资源引擎TutorialBank: 让NLP学习不再困难

26560
来自专栏专知

【下载】Scikit-learn作者新书《Python机器学习导论》, 教程+代码手把手带你实践机器学习算法

【导读】哥伦比亚大学老师Andreas C. Müller同时也是著名机器学习Python包scikit-learn的主要贡献者 Andreas Muller ...

68650
来自专栏机器之心

实验研究工作流程详解:如何把你的机器学习想法变成现实

选自dustintran 作者:DUSTIN TRAN 机器之心编译 参与:李泽南、Smith 从研究思想的提出到实验的具体实现是工程中的基础环节。但是这一...

30450
来自专栏企鹅号快讯

AI 时代下腾讯的海量业务智能监控实践

作者丨李春晓:腾讯高级工程师,目前为腾讯SNG社交网络运营部社交平台业务运维组员工。 海量业务的挑战 互联网业务讲究“极致、口碑、快”,经历过长时间的演进,腾讯...

1.1K100
来自专栏运维小白

18.8 LVS调度算法

LVS调度算法 轮询 Round-Robin 简称:rr 最简单的也是最容易理解 用户请求过来,均衡的分发到rs上 加权轮询 Weight Round-R...

20870
来自专栏AI黑科技工具箱

0.伏笔:图像读取方式以及效率对比

入职了之后挺忙,已经好久没有做一些科普性的更新了。近期已做了些学术要求不高的工作,所以刚好有时间写写总结。

703110
来自专栏玉树芝兰

如何对PDF文献做可视化分析?

看了大量文献后,你的硬盘上想必存下不少PDF文件。能否充分利用它们,挖掘出你独特的领域知识地图呢?本文为你提供一种简便易行的办法。

14520
来自专栏AI研习社

Github 项目推荐 | 用于构建端对端对话系统和训练聊天机器人的开源库 —— DeepPavlov

DeepPavlov 是一个开源的会话 AI 库,建立在 TensorFlow 和 Keras 之上,用于以下设计: NLP和对话系统研究; 实施和评估复杂的会...

64090
来自专栏华章科技

近期GitHub上最热门的开源项目(附链接)

2 月份 GitHub 上最热门的开源项目又出炉了,又有哪些新的项目挤进热门榜单了呢,一起来看看。

8720
来自专栏ThoughtWorks

测试矩阵

迷阵 “单元测试,集成测试,端到端测试,安全测试,性能测试,压力测试,契约测试,冒烟测试,验收测试,API测试,UI测试,兼容性测试……” 不知道你是不是像我一...

46090

扫码关注云+社区

领取腾讯云代金券