认识Tableau数据

Q

维度&度量是什么?

A

维度:用来对数据进行分类的结构和观察业务情况的角度

度量:用来描述业务情况的数值型多维数据

您看此文用分秒,关注只需1秒呦~

不了解数据,一切皆是空谈

数据不仅仅是数字,要想把数据可视化,就必须知道它表达的是什么

事实上,数据是现实世界的一个快照,会传递给我们大量的信息

一个数据点可以包含时间、地点、任务、事件、起因等因素,因此一个数字不再是沧海一粟

大数据时代的第一个转变,是要分析与某事物相关的更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再是只依赖于分析随机采样的少量的数据样本

数据是对现实世界的简化和抽象表达。当你可视化数据的时候,其实是在将对现实世界的抽象表达可视化,或至少是将它的一些细微方面可视化

可视化能帮助你从一个个独立的数据点中解脱出来,换一个不同的角度去探索它们

数据和它所代表的事物之间的关联既是把数据可视化的关键,也是全面分析数据的关键,同样还是深层次理解数据的关键

计算机可以把数字批量转换成不同的形状和颜色,但是你必须建立数据和现实世界的联系,以便使用图表的人能够从中得到有价值的信息

可视化只是一个分析工具,可帮助你探索数据,发现传统统计检验中可能发现不了的东西

你只需要知道目标是什么,以及就已有的数据要提出什么问题

越理解数据,越能更好传达你的研究成果

准备数据

企业如果想进行数据关联性分析,需要业务人员和IT人员一起,根据需求对数据进行对应、分类,并编写脚本进行提取和关联。如果沟通不畅导致提取的数据不准确,还得重新开发,这项工作往往要花费企业80%的时间

上面提到两个关键的角色,业务人员&IT人员

传统的BI系统架构:业务人员提出需求,IT人员对明细数据进行汇总、建模、生成Cubes、开发报表、测试、上线、运维等,业务人员再在前端查看这些生成的报表结果辅助分析。我们不难发现传统架构下存在的问题:投入大量人力财力、上线周期长、无法及时响应业务需求变化

随着技术的更新和发展,企业迫切需要一种能及时分析和自助式的BI工具

现代分析平台架构:业务人员可以基于原始数据可以实现多维度探索式分析,实现灵活多样的分析需求。IT人员避免各种数据请求的积压,把更多时间专注擅长的数据架构和数据安全

Tableau是如何准备数据

Tab数据源界面

查看过很多Tableau书籍,并未对数据源界面有过多介绍大多数都是一笔带过。通常,获取需要的数据是最困难,耗时最多的一步。再以往的经验总结:先有数据再有可视化,数据决定图表形态

Tableau数据源

它包含有关如何查找数据的信息(如文件名和路径),或有关如何连接到数据的信息(如数据库服务器名称和服务器登录信息)。数据源还包含连接中的表的名称以及有关表彼此之间的关系的信息

此外,数据源可以包含您在数据顶部进行的一层自定义,例如计算、组和重命名字段,但这些自定义不是原始数据本身的一部分。Tableau 数据源本质上是您的数据、连接信息以及您在顶部进行的自定义的总和

连接到数据后,当您从数据库中选择要与之交互的第一个表时,将为您创建一个基本数据源。但是,由于能够以很多种不同的方式捕获和存储您的数据,所以您可能需要在进行分析之前对 Tableau 数据源进行一些额外的设置

第一:链接到数据

若要构建视图并分析数据,必须首先将 Tableau 连接到数据

使用数据解释器清理您的数据

数据可能包括附加表、子表、分层页眉、无关的页眉和页脚,或者空白行和列。数据解释器会检测这些子表,以便可以独立于其他数据使用数据的子集。它还可移除无关信息来帮助准备用于分析的数据源

第二:合并数据

并集(手动和通配符)

合并是一种将值附加到表的方法。如果表具有相同的列,则可以合并这些表。使用并集合并数据后会生成一个虚拟表,此表具有相同的列,但会通过添加数据行进行纵向扩展

联接

联接是用于合并由通用字段(即,通用列)关联的表的一种方法。使用联接合并数据后会产生一个通过添加数据列横向扩展的虚拟表

混合

数据混合也是允许您合并数据的另一种方法。当使用数据混合来合并数据时,您可以将所谓的主数据源中的数据与一个或多个辅助数据源的通用字段进行合并,有时一个数据集会使用比其他数据集更大或更小的粒度来捕获数据

第三:了解元数据

第四:数据源名称、实时与提取、筛选器

定义数据源名称

实时,Tableau与数据库直连实现数据分析,对数据库性能要求极高,一般用于分布式数据、内存数据库、列式数据库等

提取,数据本地文件化内存加载,提升报表开发体验

提取数据源筛选器,筛选源数据减少提取数据量,数据过滤的第一道关卡

数据源筛选器,筛选数据源减少可视化数据量,等级低于提取数据源筛选器

第五:数据源连接实例

数据可以来自单个表

数据可以来自同一个数据库下多个表

数据可以来自不同数据库的多个表

第六:数据清洗&预览

字段拆分

数据透视表,列转行

隐藏非分析字段,隐藏字段不做提取

合并不匹配字段,补齐两个字段对缺失值

调整字段类型

字段别名,修改错误记录

第七:跳转到开发界面--工作表

Tableau Prep数据准备工具

今年四月份发布,图形化清洗、整合数据,后期单独介绍

Prep界面

了解更多:请留言

文章预告:

《Tableau数据清洗》

回复(可视化书籍)获取更多学习书籍

大白(Myth)

一个误入数据分析行业

网络架构、系统运维、DBA、大数据,无一精通

喜欢和自己较劲,易沉迷于新技术,常在现实与虚无之间晃荡

梦想着成为一位会编程的旅行美食家

版权所有 | 原创精品 |禁止用于商业用途

合作事宜 | 请联系工作人员

学习是一种信仰,点赞是一种美德。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181203G169HI00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

同媒体快讯

扫码关注腾讯云开发者

领取腾讯云代金券