前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >如何用数据分析指标分析数据含义

如何用数据分析指标分析数据含义

作者头像
开心鸭
发布2020-10-26 14:38:14
1.7K0
发布2020-10-26 14:38:14
举报
文章被收录于专栏:开心鸭数据分析

鸭鸭在开始之前给鸭仔们介绍几个数据分析经常用到的指标:

平均数:数据当中有异常数值,平均值是不准确的,平均数有时候用来愚弄大众的智商。

四分位数:中位数的中位数,分为上界,上四分位数,中位数,下四分位数,下界 。

  1. 最小估计值Q1-k(Q3-Q1)
  2. 最大估计值Q3+k(Q3-Q1)
  3. k=1.5 中度异常
  4. k=3 极度异常

标准差是为了看出稳定不稳定

  1. 波动大小=离散程度
  2. 标准差=方差开根号
  3. 标准差的单位是和数据的单位是相同的

标准分=距离平均值多少个标准差

实践:

现在我们有两个表:

这个数据集下载链接

Baby Goods Info Data-数据集-阿里云天池

题目要求:我们根据父母的购物行为预测儿童的信息,或者根据儿童的年龄预测父母的行为。

首先鸭鸭认为数据分析的第一步一定要明确自己要解决什么问题:

第一层: 婴幼儿出生时间分布及原因分析; 婴幼儿商品购买数量分布及对商品畅按畅销度划分; 从性别、年龄、时间(月份)3个维度分析对婴幼儿商品购买数量的影响; 第二层: 提供更加准确的商品推荐机制 预测事件1:基于宝妈购买商品的数据集,预测婴幼儿年龄; 预测事件2:基于婴幼儿年龄性别数据集,预测用户可能购买的商品类型;

1.【准备工作】

把csv转换成xls

2.【数据清洗】

步骤1:删除重复值

有无缺失值(看是否重要进行填补)

一致化处理(日期格式转换)

合并两个表格进行比较

异常值删除

3.【数据分析】

这也是最关键的一步了,这里给大家几个思路。

1.鸭鸭比较婴幼儿年龄和妈妈购买时间可以知道妈妈在婴幼儿哪个年龄段购买,还有些妈妈是在未出生前就已经购买了。然后和商品类型进行对比,可以知道哪些类别商品是妈妈倾向未雨绸缪就买好的,哪些是等到时间到了才买的。

2.鸭鸭把妈妈购买的时候婴幼儿年龄计算出来,得出该类商品是属于哪个婴幼儿年龄段的,但是得关注异常值,看看是否是提前购买行为。

3.鸭鸭发现婴幼儿物品往往是有年龄段的区分的比如,几岁到几岁喝奶粉,几岁到几岁要看拼读材料,这时候可以集中提取数据,看看是否和大类或者小类有关。

4.鸭鸭第一点说到妈妈是在未出生前就已经购买了,这一点很重要,因为孕妇在怀孕前后心态是很微妙的,所以可以参考一定的心理学文献对孕妇购买行为进行联系。

5.鸭鸭可以分析某大类产品的购买量,如果可以从property当中获取商品价格,那么在结合其性质可以分析妈妈们选择婴幼儿商品当中必需品的选择或者说易消耗品的选择的价格考量。

6.对数据进行可视化,可视化鸭鸭认为最重要的是可以看到数据在哪里密集,是否有异常,密集是可以体现集中购买量,核心婴幼儿群体对应核心的购买力(消费力),这可以反应购买行为对应人群属性的普遍问题。

说了这么多有人问鸭鸭了,你刚开头说的那几个指标干嘛用了???

诶!他们当然有用!

eg:我们可以计算在A年龄段的婴幼儿购买同种商品类型的标准差,如果标准差很大,是不是可以得出该年龄段的商品他offer了很多不同档次的商品——》也就是分为高端消费用户和中端消费用户了。

extend: 鸭鸭在这里假设是奶粉,且贵的奶粉购买基数大再结合当前大家对奶粉的不信任,那么是不是可以认为一些妈妈收到奶粉负面新闻的影响他们更愿意去购买贵的奶粉,进一步在分析商品的property如果奶粉来自于国外。

result:是不是可以得出结论:现如今的妈妈更愿意购买国外的高端奶粉,但在当前市场环境下不同的家长选择层次不齐,差别很大,体现了家庭条件可能会决定婴幼儿必需品的质量,有一定可能影响婴幼儿成长。

好啦,这次鸭鸭实践的内容不多,主要是给大家提供一个inspiring的思路,希望大家多多资瓷资瓷资瓷资瓷资瓷!

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 鸭鸭在开始之前给鸭仔们介绍几个数据分析经常用到的指标:
  • 平均数:数据当中有异常数值,平均值是不准确的,平均数有时候用来愚弄大众的智商。
  • 四分位数:中位数的中位数,分为上界,上四分位数,中位数,下四分位数,下界 。
  • 标准差是为了看出稳定不稳定
  • 标准分=距离平均值多少个标准差
  • 实践:
  • 首先鸭鸭认为数据分析的第一步一定要明确自己要解决什么问题:
  • 有无缺失值(看是否重要进行填补)
  • 一致化处理(日期格式转换)
  • 合并两个表格进行比较
  • 异常值删除
  • 这也是最关键的一步了,这里给大家几个思路。
  • 好啦,这次鸭鸭实践的内容不多,主要是给大家提供一个inspiring的思路,希望大家多多资瓷资瓷资瓷资瓷资瓷!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档