现在我们有两个表:
这个数据集下载链接
Baby Goods Info Data-数据集-阿里云天池
题目要求:我们根据父母的购物行为预测儿童的信息,或者根据儿童的年龄预测父母的行为。
第一层: 婴幼儿出生时间分布及原因分析; 婴幼儿商品购买数量分布及对商品畅按畅销度划分; 从性别、年龄、时间(月份)3个维度分析对婴幼儿商品购买数量的影响; 第二层: 提供更加准确的商品推荐机制 预测事件1:基于宝妈购买商品的数据集,预测婴幼儿年龄; 预测事件2:基于婴幼儿年龄性别数据集,预测用户可能购买的商品类型;
1.【准备工作】
把csv转换成xls
2.【数据清洗】
步骤1:删除重复值
3.【数据分析】
1.鸭鸭比较婴幼儿年龄和妈妈购买时间可以知道妈妈在婴幼儿哪个年龄段购买,还有些妈妈是在未出生前就已经购买了。然后和商品类型进行对比,可以知道哪些类别商品是妈妈倾向未雨绸缪就买好的,哪些是等到时间到了才买的。
2.鸭鸭把妈妈购买的时候婴幼儿年龄计算出来,得出该类商品是属于哪个婴幼儿年龄段的,但是得关注异常值,看看是否是提前购买行为。
3.鸭鸭发现婴幼儿物品往往是有年龄段的区分的比如,几岁到几岁喝奶粉,几岁到几岁要看拼读材料,这时候可以集中提取数据,看看是否和大类或者小类有关。
4.鸭鸭第一点说到妈妈是在未出生前就已经购买了,这一点很重要,因为孕妇在怀孕前后心态是很微妙的,所以可以参考一定的心理学文献对孕妇购买行为进行联系。
5.鸭鸭可以分析某大类产品的购买量,如果可以从property当中获取商品价格,那么在结合其性质可以分析妈妈们选择婴幼儿商品当中必需品的选择或者说易消耗品的选择的价格考量。
6.对数据进行可视化,可视化鸭鸭认为最重要的是可以看到数据在哪里密集,是否有异常,密集是可以体现集中购买量,核心婴幼儿群体对应核心的购买力(消费力),这可以反应购买行为对应人群属性的普遍问题。
说了这么多有人问鸭鸭了,你刚开头说的那几个指标干嘛用了???
诶!他们当然有用!
eg:我们可以计算在A年龄段的婴幼儿购买同种商品类型的标准差,如果标准差很大,是不是可以得出该年龄段的商品他offer了很多不同档次的商品——》也就是分为高端消费用户和中端消费用户了。
extend: 鸭鸭在这里假设是奶粉,且贵的奶粉购买基数大再结合当前大家对奶粉的不信任,那么是不是可以认为一些妈妈收到奶粉负面新闻的影响他们更愿意去购买贵的奶粉,进一步在分析商品的property如果奶粉来自于国外。
result:是不是可以得出结论:现如今的妈妈更愿意购买国外的高端奶粉,但在当前市场环境下不同的家长选择层次不齐,差别很大,体现了家庭条件可能会决定婴幼儿必需品的质量,有一定可能影响婴幼儿成长。