数据分析基础知识介绍

最近更新时间:2023-12-01 11:51:52

我的收藏

维度和指标介绍

维度与指标最基本的作用是对某个属性或特征进行描述与大小衡量,维度与指标往往成对出现,搭配使用。


维度:指定不同值的对象的描述性属性或特征,例如性别、地区、渠道类别等。
指标:基于某个属性对其属性的指标进行衡量,例如销售额、付费客户数、订单数等。

聚合计算介绍

在数据分析场景中,可对数据进行不同计算口径的统计。
1. 维度计算:时间聚合,按年/月/日/时/分/秒时间粒度进行分组聚合;自定义分组,如华东地区包含江苏、浙江、上海、安徽等省份;
2. 指标计算:聚合方式,如求和、计数(去重)、最大值、最小值、平均值。

维度表和事实表介绍

1. 维度表:一般是对事实的描述信息,每一张维度表对应现实世界中的一个对象或者概念,例如用户、商品、日期、地区等。
特征:
维度表的范围很宽(具有多个属性、列比较多)
跟事实表相比,行数相对较小:通常<10万条
内容相对固定:编码表
2. 事实表:每行数据代表一个业务事件(下单、支付、退款、评价等)。“事实”这个术语表示的是业务事件的度量值(可统计次数、个数、件数、金额等),例如,订单事件中的下单金额。
特征:
内容相对的窄:列数较少
跟维度表相比,行数相对较大
内容相对变化,每天会新增很多数据

数据表拼接介绍

使用场景:当单表字段无法满足使用,需要进行字段的拓展和数据行的拓展,需要将多张表拼接到一起时,需要用到 join 操作。



1. 左外连接(left join):以左表为基准,查询结果中包含左表全部数据,右表匹配数据不存在时用 null 代替。
2. 右外连接(right join):以右表为基准,查询结果中包含右表的全部数据,右表匹配数据不存在时用 null 代替。
3. 内连接(inner join):通过 id 将左表和右表连接起来产生一个新表,新表是由这个表的交集部分组成。
4. 全连接(full join):左连接和右连接的一个合集,包含左表和右表的全部数据,匹配不上的显示为 null。