数据来源:
Baby Goods Info Data-数据集-阿里云天池
(1)选择子集
根据上面第一步的问题,需要用到的字段有:用户ID、商品类别、购买数量、购买时间、那么,其它字段可以设置为隐藏。(注意:为了保证数据的完整性,千万不要删除数据!不需要的数据隐藏即可)。把表1里不需要的字段:auction_id:购买行为编号、property:商品属性隐藏起来:表2的所有字段保留。
(2)列名重命名
列表英文改成中文,不过问题不大
(3)删除重复值
“用户ID”作为唯一的标识,对表2婴儿信息进行重复值删除,发现没有重复值;
(4)缺失值处理
对两个表,分别进行了检查,没有发现缺失值,后来进行两表合并的时候发现了性别很多的缺失值。
(5)一致化处理
第一步提出的问题,分析涉及到时间,所以需要把两个表里的日期数据,都修改为标准的日期类型。用“数据分列”的方法,分别把表1“购买时间”列,表2的“出生日期”列,修改为标准的日期类型。把整理好后的表1,表2,通过“用户ID”列,利用vlookup函数,进行关联,使两表合并为一表,最终如下图所示:
(6)对异常值的处理
1)性别异常值处理
利用筛选功能,把“性别”为2的项,即性别为未知的项,共26行,按照现有已知的男女数比例489:438,等比的分别替换为0和1,即把14个替换为0,把12个替换为1。再把性别0,1,利用if函数,替换为男,女。
2)年龄异常值处理
这里我认为不用处理因为负数代表了出生前的购买行为,处理了反而失去了信息。
3)购买异常值处理
发现有160的数据,可以删除这行。
分析思路:大家都知道电商平台不管是传统电商还是社交电商都离不开人货场。所以这次的分析就是针对人货场展开
提出假设:每年的销量有波动
分析流程:购买量=新用户购买量+老用户购买量
老用户购买量因为商品复购率比较低所以数据支撑不够
新用户首次出现可以考虑,但是2015年只有1月和2月的数据所以数据不全,所以无法用平均值的方法进行判断,我们进行纵向对比,2013-2014-2015年1月和2月的数据。
收集证据:
所有商品总销售量随时间变化情况
得出结论:2015年的销量可能有下跌,但不能确定需要进一步假设分析。
提出假设:2015年的销量有下跌
搜集证据:
结论:发现1月2月的销量有所波动,但是当前的数据太少不能证明2015年销量下降,假设不成立。
根据上图已知下半年的销量有所上涨,故提出假设
提出假设:下半年销量上涨可能是部分类别的商品上涨导致的。
收集证据:
发现28,50014815,50008168,以上三个商品类别销售量最高,并且上升趋势明显。
得出结论:假设成立
我们发现以15结尾的这个商品类在2014年第四季度的时候上升最为强烈,28在2013年有一个上升的拐点,建议结合当时宝妈的关注点和市场营销情况进行分析。并且将15结尾类的商品作为明年双十一的主推产品。
深究:为什么第三季度和第四季度的销量主要贡献者类别28、5008168和50014815会在下半年出现大幅度增长。
提出假设:可能是七月、九月和十一月的节日导致销量上升
收集证据:
得出结论:确实在七月、九月和十一月的时候销量有上升,但是无法确定是什么节日,继续进行假设。
提出问题:为什么28商品在7月上涨,15结尾商品在11月上涨,68结尾商品在9月上涨?
提出假设:可能是七月暑假对28类商品有促销节日
收集证据:
得出结论:假设成立,七月二号月初有消费节的可能性比较大,具体是什么活动需要和运营进行确定。
提出假设:68商品可能是九月十号教师节的促销活动
收集证据:
得出结论:发现9月20号是商品销量上涨的最终原因。通过百度搜索发现九月二十号是全国爱牙日,可能这时候淘宝有设置促销活动。
提出假设:15结尾商品有在第四季度11月销量增加,我们考虑可能是双十一导致
收集证据:
结论:我们在分析销售暴涨点的时候发现了拐点的异常,我们发现十一月的爆发点不在11.11号双十一购物节的日子,反而在11.13号,建议重点分析异常原因,是不是企业大客户造成,或者是返现刷单等不常规的原因导致数据异常。
提出假设:男婴的购买力比女婴强
收集证据:
得出结论:从图中可以得出男婴儿家长的购买力基本大于女婴家长,除去客观因素结合我国国情,男女比率不平衡,以及重男轻女,家长可能会减少在女婴身上的投资,我们进一步考虑这一因素是不是和商品种类有关系,所以下一图表当中我们加入商品种类因素。
提出假设:男婴女婴对不同商品需求可能不同
收集证据:
我们发现15商品男婴宝宝购买的比较多,属于男婴产品,28,68类通用并且销量都比较高,属于通用商品,推测是婴儿车,奶粉,拼读材料,婴儿衣服等通用商品,因为这类商品需求量大不分男女。
进一步收集证据:
结论:我们进一步对男婴女婴进行分析发现男婴对15结尾类的产品需求量比较大,根据28法则百分之八十的利润都是由百分之二十的商品创造的。鸭哥建议男婴可以主推15类商品,女婴主推68结尾类型商品,其他28,15结尾类的爆款可以放到第二梯队进行营销。
建议:
1.扩大数据集,查看历史资料,加入营销活动数据集进行对比,可以从数据分析的角度给出营销方案组合最大化营销效率。
2.查看爆款商品的商品回购率,或分析相同用户在购买爆款商品后去买了其他商品而不再选择爆款商品的行为是为什么,这两款商品之间有什么联系,都可以作为数据的挖掘点。
提出假设:在0-1年龄段对商品的需求量比较大
通过对商品类别、购买数量、年龄三个维度进行分析,这里鸭哥通过购买时间-出生时间计算出婴儿年龄,所以会出现异常值负值,属于正常现象,负值代表了婴儿出生几年前的购买行为,0岁代表的是1岁以下但是婴儿已经出生。不过还发现了6岁以上的一些数据,这些数据是来自于数据渠道的错误,所以可以去除这些异常值。
收集证据:
我们发现0岁和1岁的婴儿需求量比较大,有少部分家长会在婴儿出生前购买母婴产品,28和68结尾商品是主要预先购买商品,初步推测应该是奶粉,尿不湿等一些婴儿一出生就要用的商品,15结尾的在各个年龄段都有使用但是在4 5 6年龄的婴儿需求量较少,68结尾类商品保持比较平稳的需求量状态。
得出结论:假设成立,可以进一步考虑性别
提出假设:不同性别,不同年龄对不同商品种类可能有不同的选择倾向
收集证据:
得出结论:0-1岁女婴对除去38类商品的需求度都比较集中,男婴在1岁主要对15结尾的商品需求量比较大。且随着年龄增加对不同商品的需求水平比较平均。
建议:
1.定点推送,针对需求的多少去针对性推送广告以此来减免广告费用,提高广告效率,对于女婴产品可以集中在0-2岁进行推广。男婴产品可以在1岁集中对15结尾类产品推广。
2.推广渠道按照年龄划分,如果需求量在0-1岁比较大,可以考虑产科医院,月子中心,线下推广。线上推广可以结合母婴类APP在不同模块和功能点处进行针对性推广。
3.总之需求量大的商品要去结合购买者婴儿的年龄对应的需求点,商品本身类型的特质,婴儿的性别特征等因素进行考量。
提出假设:会员复购率不高
收集证据:
得出结论: 假设成立,我们发现只有24位会员有复购行为
提出假设:在复购率不高的情况下,存在复购率高的商品类型
收集证据:
得出结论:假设成立,商品50008168是被回购得最多次的商品,其次是商品28。对这些回购得比较频繁的商品,应该对其进行重点研究,为日后主推商品提供指引。