Tableau基础知识1.文件与数据1.1 Tableau文件类型2.制表3.绘图

1.文件与数据

Tableau使用的数据结构必须是标准的关系型数据库中的二维表结构。

1.1 Tableau文件类型

文件类型

文件大小

使用场景

具体内容

数据源.tds

频繁使用的数据源

完整的数据源定义

数据提取.tde

数据源为远程,希望提高库性能

筛选出的部分或完整的源数据本地副本

工作薄.twb

默认保存方式

仅包括数据源定义和可视化图表定义,无源数据

工作薄.twbx

与无法访问源数据的用户分享工作结果

所有信息和源数据

1.2 数据整理操作

  • 名称与重命名
  • 更改数据类型:数值、日期、字符、逻辑
  • 字符型变量:别名、数值拆分
  • 数值型变量:数值分段(创建级)
  • 创建:新变量(创建计算字段)、数据组
  • 隐藏数据列

1.3 重复测量数据的记录方式

  • 宽型:每一个个体被记录为一个Case,所有测量被记录在不同的变量中。
  • 长型:每一次测量被单独记录为一个Case。
  • 如果原始数据是宽型数据,先用Python进行长宽转换,或用Tableau的数据透视表进行长宽转换。

1.4 纬度和度量

纬度:对应(无序/有序)分类变量,用于对案例进行分组

  • 字符串变量、日期时间变量、布尔(逻辑)变量默认设为维度
  • 强行将连续变量拖动为维度
  • 数据桶:分段后的数据桶会被作为维度
  • 度量名称:代表所有度量变量的集合

度量:对应连续变量,在图表中呈现为原始信息或汇总信息

  • 数值变量默认设为度量
  • 强行将字符串变量拖动为度量
  • 记录数:代表符合筛选条件的案例数量
  • 度量值:代表相应度量的汇总数值,常与度量名称联合使用

2.制表

2.1 表格类型

叠加表(Stacking)

屏幕快照 2018-04-29 22.12.42.png

  • 指在同一张表格中对两个变量进行描述,或在表格中有一个维度的元素是由两个以上的变量构成。
  • 叠加表可以被理解为,为两个变量分别绘制两个简单的报表,然后拼接(可以横行拼接)。

交叉表(Crosstabulation)

  • 观察两个分类变量间联系时常用表格,它的两个维度都是由分类变量的各类别(及汇总)构成。

嵌套表(Nesting)

屏幕快照 2018-04-29 22.18.34.png

  • 显示两个分类变量的联系,两个变量被放置在同一个表格维度中,即该维度由两个变量的各种类别组合构成。
  • 嵌套表不如交叉表直观,但当每个单元格内需要呈现的统计指标非常多时,嵌套表更为美观和紧凑。

多层表(Layers)

屏幕快照 2018-04-29 22.23.34.png

  • 如果指定层元素,表格就由二维扩展到三维,即多层表。
  • 多层表每次观察到其中的一层,而嵌套表每次可以观察到所有层。

复合表

  • 叠加-交叉表:一个维度是分类变量,另一个维度是两个变量的叠加。
  • 嵌套-交叉表:一个维度是分类变量,另一个维度是两个分类变量的嵌套。

2.2 制表步骤

  1. 确定表格结构与行列构成,是否在表格中出现多个元素的嵌套,有多少种汇总,是否有嵌套汇总等。
  2. 绘制表格的基本结构。
  3. 完善细节,使单元格的输出格式符合要求。
  4. 添加其余变量、统计量到表格中。
  5. 对表格的附加文本和格式进行修饰。
  6. 最后审核绘制的表格,查缺补漏。

3.绘图

3.1 统计图的分类框架

  1. 根据呈现变量的数量,将统计图分为单变量图、双变量图和多变量图。
  2. 根据相应变量的测量尺度进行更细划分。

3.2 单个-分类变量

  • 简单条图:按分类区分直条,直条高度代表频数大小。
  • 分段条图:按分类区分颜色,条段大小代表频数/构成比大小。
  • 饼图:饼块大小代表频数/构成比大小。
  • 气泡图:气泡大小代表频数/构成比大小。

3.3 单个-数值变量

直方图

  1. 对数值进行分组频数汇总,呈现整个取值区间上的数据分布特征。
  2. Tableau是通过对原始数据生成分段变量(数据图)来实现。

箱图

  1. 使用百分位数体系刻画整个取值区间。
  2. 箱体最中间的粗线为P50(中位数),方框上下界为P75和P25(四分位数)。
  3. 数据用散点的方式表示。
  4. 与四分位数(即方框上下界)的距离超过1.5倍四分位间距(即方框长度)的都会被定义为离群值,相应的界限在图中以线段表示。
  5. 所有数值均未超界时,该线段就是最大/最小值。

3.4 数值因变量

  • 条图:呈现分类自变量的影响,同时衍生出点图。
  • 线图:单线图呈现时间变量的影响,双线图提供两个纵轴尺度对比数值相差较大的两个指标,同时衍生出面积图。
  • 散点图:呈现连续自变量的影响

3.5 分类因变量

  • 基本使用各类条图对数据进行呈现。
  • 复式条图:呈现两个分类变量各个类别组合情况下的频数分布。
  • 分段条图:主要突出一个分类变量各类别的频数,并在此基础上表现两个类别的组合频数情况。
  • 百分条图(马赛克图):呈现在一个变量不同类别下,另一个变量各类别的百分比变化情况。
  • 树状图:将两个分类变量置于同等地位,直接显示各个组合单元格所占百分比。

3.6 更复杂的图形

  • 呈现多个变量的关系:用线图/条图的组合对二维图进行扩充。
  • 统计地图:与Tableau地图数据结合,或自定义地图数据。
  • 甘特图:异化的条图,反映项目进展是否按时间计划进行。
  • 标靶图:在条图的基础上增加目标值,反映任务完成情况。
  • 词云:反映各词汇在语料库中的出现频次。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏诸葛青云的专栏

Python识别验证码!学会这步,百分之60的网站你基本都能识别了!

127是我们设定的阈值,像素值大于127被置成了0,小于127的被置成了255。处理后的图片变成了这样

970
来自专栏walterlv - 吕毅的博客

从 Matrix 解构出 Translate/Scale/Rotate(平移/缩放/旋转)

发布于 2017-11-20 16:20 更新于 2017-11...

2851
来自专栏深度学习自然语言处理

【python】Tkinter可视化窗口(三)

我们的最终效果就是移动scale里面的bar,使得上面的黄色label显示该值并保留两位小数。

1133
来自专栏企鹅号快讯

C+实现神经网络之四—神经网络的预测和输入输出的解析

在上一篇的结尾提到了神经网络的预测函数predict(),说道predict调用了forward函数并进行了输出的解析,输出我们看起来比较方便的值。 神经网络的...

1936
来自专栏懒人开发

(7.1)James Stewart Calculus 5th Edition:Integration by Parts

注意: 这样做,目的是为了 降阶, 如果转换后,对应的没有起到 降阶 的作用,就没有什么意义了

1041
来自专栏人工智能LeadAI

数据分析中的可视化-常见图形

import matplotlib.pyplot as plt import pandas as pd from pandas import Series, D...

1222
来自专栏PPV课数据科学社区

【学习】《R实战》读书笔记(第三章)

会是一种在于拓展视野、宏观思维、知识交流、提升生活的活动。PPV课R语言读书会以“学习、分享、进步”为宗旨,通过成员协作完成R语言专业书籍的精读和分享,达到学习...

3246
来自专栏CSDN技术头条

数据可视化的10个关键术语

Format 交互方式 Interactive visualisations allow you to modify, manipulate and explo...

1907
来自专栏QQ音乐技术团队的专栏

GIF简述及其在QQ音乐的应用

GIF(Graphics Interchange Format)是CompuServe公司在1987年开发的图像文件格式,原义是图像互换格式。GIF是一种基于L...

6900
来自专栏逍遥剑客的游戏开发

Nebula3中的模型

1337

扫码关注云+社区