前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Tableau基础知识1.文件与数据1.1 Tableau文件类型2.制表3.绘图

Tableau基础知识1.文件与数据1.1 Tableau文件类型2.制表3.绘图

作者头像
用户1250179
发布2018-08-02 16:40:49
1.9K0
发布2018-08-02 16:40:49
举报
文章被收录于专栏:数说戏聊数说戏聊

1.文件与数据

Tableau使用的数据结构必须是标准的关系型数据库中的二维表结构。

1.1 Tableau文件类型

文件类型

文件大小

使用场景

具体内容

数据源.tds

频繁使用的数据源

完整的数据源定义

数据提取.tde

数据源为远程,希望提高库性能

筛选出的部分或完整的源数据本地副本

工作薄.twb

默认保存方式

仅包括数据源定义和可视化图表定义,无源数据

工作薄.twbx

与无法访问源数据的用户分享工作结果

所有信息和源数据

1.2 数据整理操作

  • 名称与重命名
  • 更改数据类型:数值、日期、字符、逻辑
  • 字符型变量:别名、数值拆分
  • 数值型变量:数值分段(创建级)
  • 创建:新变量(创建计算字段)、数据组
  • 隐藏数据列

1.3 重复测量数据的记录方式

  • 宽型:每一个个体被记录为一个Case,所有测量被记录在不同的变量中。
  • 长型:每一次测量被单独记录为一个Case。
  • 如果原始数据是宽型数据,先用Python进行长宽转换,或用Tableau的数据透视表进行长宽转换。

1.4 纬度和度量

纬度:对应(无序/有序)分类变量,用于对案例进行分组

  • 字符串变量、日期时间变量、布尔(逻辑)变量默认设为维度
  • 强行将连续变量拖动为维度
  • 数据桶:分段后的数据桶会被作为维度
  • 度量名称:代表所有度量变量的集合

度量:对应连续变量,在图表中呈现为原始信息或汇总信息

  • 数值变量默认设为度量
  • 强行将字符串变量拖动为度量
  • 记录数:代表符合筛选条件的案例数量
  • 度量值:代表相应度量的汇总数值,常与度量名称联合使用

2.制表

2.1 表格类型

叠加表(Stacking)

屏幕快照 2018-04-29 22.12.42.png

  • 指在同一张表格中对两个变量进行描述,或在表格中有一个维度的元素是由两个以上的变量构成。
  • 叠加表可以被理解为,为两个变量分别绘制两个简单的报表,然后拼接(可以横行拼接)。

交叉表(Crosstabulation)

  • 观察两个分类变量间联系时常用表格,它的两个维度都是由分类变量的各类别(及汇总)构成。

嵌套表(Nesting)

屏幕快照 2018-04-29 22.18.34.png

  • 显示两个分类变量的联系,两个变量被放置在同一个表格维度中,即该维度由两个变量的各种类别组合构成。
  • 嵌套表不如交叉表直观,但当每个单元格内需要呈现的统计指标非常多时,嵌套表更为美观和紧凑。

多层表(Layers)

屏幕快照 2018-04-29 22.23.34.png

  • 如果指定层元素,表格就由二维扩展到三维,即多层表。
  • 多层表每次观察到其中的一层,而嵌套表每次可以观察到所有层。

复合表

  • 叠加-交叉表:一个维度是分类变量,另一个维度是两个变量的叠加。
  • 嵌套-交叉表:一个维度是分类变量,另一个维度是两个分类变量的嵌套。

2.2 制表步骤

  1. 确定表格结构与行列构成,是否在表格中出现多个元素的嵌套,有多少种汇总,是否有嵌套汇总等。
  2. 绘制表格的基本结构。
  3. 完善细节,使单元格的输出格式符合要求。
  4. 添加其余变量、统计量到表格中。
  5. 对表格的附加文本和格式进行修饰。
  6. 最后审核绘制的表格,查缺补漏。

3.绘图

3.1 统计图的分类框架

  1. 根据呈现变量的数量,将统计图分为单变量图、双变量图和多变量图。
  2. 根据相应变量的测量尺度进行更细划分。

3.2 单个-分类变量

  • 简单条图:按分类区分直条,直条高度代表频数大小。
  • 分段条图:按分类区分颜色,条段大小代表频数/构成比大小。
  • 饼图:饼块大小代表频数/构成比大小。
  • 气泡图:气泡大小代表频数/构成比大小。

3.3 单个-数值变量

直方图

  1. 对数值进行分组频数汇总,呈现整个取值区间上的数据分布特征。
  2. Tableau是通过对原始数据生成分段变量(数据图)来实现。

箱图

  1. 使用百分位数体系刻画整个取值区间。
  2. 箱体最中间的粗线为P50(中位数),方框上下界为P75和P25(四分位数)。
  3. 数据用散点的方式表示。
  4. 与四分位数(即方框上下界)的距离超过1.5倍四分位间距(即方框长度)的都会被定义为离群值,相应的界限在图中以线段表示。
  5. 所有数值均未超界时,该线段就是最大/最小值。

3.4 数值因变量

  • 条图:呈现分类自变量的影响,同时衍生出点图。
  • 线图:单线图呈现时间变量的影响,双线图提供两个纵轴尺度对比数值相差较大的两个指标,同时衍生出面积图。
  • 散点图:呈现连续自变量的影响

3.5 分类因变量

  • 基本使用各类条图对数据进行呈现。
  • 复式条图:呈现两个分类变量各个类别组合情况下的频数分布。
  • 分段条图:主要突出一个分类变量各类别的频数,并在此基础上表现两个类别的组合频数情况。
  • 百分条图(马赛克图):呈现在一个变量不同类别下,另一个变量各类别的百分比变化情况。
  • 树状图:将两个分类变量置于同等地位,直接显示各个组合单元格所占百分比。

3.6 更复杂的图形

  • 呈现多个变量的关系:用线图/条图的组合对二维图进行扩充。
  • 统计地图:与Tableau地图数据结合,或自定义地图数据。
  • 甘特图:异化的条图,反映项目进展是否按时间计划进行。
  • 标靶图:在条图的基础上增加目标值,反映任务完成情况。
  • 词云:反映各词汇在语料库中的出现频次。
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018.04.29 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.文件与数据
  • 1.1 Tableau文件类型
    • 1.2 数据整理操作
      • 1.3 重复测量数据的记录方式
        • 1.4 纬度和度量
        • 2.制表
          • 2.1 表格类型
            • 2.2 制表步骤
            • 3.绘图
              • 3.1 统计图的分类框架
                • 3.2 单个-分类变量
                  • 3.3 单个-数值变量
                    • 3.4 数值因变量
                      • 3.5 分类因变量
                        • 3.6 更复杂的图形
                        相关产品与服务
                        数据库
                        云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
                        领券
                        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档