首页
学习
活动
专区
工具
TVP
发布

Smartbi V8.5如何支持异构数据的关联查询

近年来,各行各业的大数据分析需求和案例如暴雨般砸向所有的CIO/CTO/CDO。但凡提到数据分析,BI厂商都讲“数据仓库”,大数据厂商都讲“Hadoop”,似乎你的业务数据存放在不同的地方,就是一个灾难。甚至数据不集成在一起,就没法进行数据分析。

从哲学的思想看,绝对的观点一定是有问题的,走进真实的企业运营管理,这些异构的数据,至少最后都在Excel里面完成“会师”,呈现在Word和PPT的分析报告当中。

那么从数据库工具层面,就没有能简单解决异构数据关联查询的么?回顾历史,10年前出现了“数据联邦”的概念,它将分布式异构数据集成到一个虚拟表中,用户或应用程序可以通过该虚拟表对数据进行实时操作,代表性的产品如IBM InfoSphere Federation Server。

我们暂不讨论数据联邦为何没发展起来,有兴趣的可以研究其“性能问题”,至少针对异构的关联查询需求的技术方案是一直都存在的。最近比较流行的就是Facebook开源的Presto,它是一个分布式的查询引擎,本身并不存储数据,但是可以接入多种数据源(通过扩展式Connector组件),并且支持跨数据源的级联查询。Presto是一个OLAP的工具,擅长对海量数据进行复杂的分析,它完全基于内存的并⾏计算,数据规模覆盖GB~PB级。

如果你不想自己深入研究Presto的Master、Worker和Connector这些节点的配置和管理,推荐你直接使用已经封装好Presto的数据分析软件,比如Smartbi Insight V8.5。从官方WIKI上看到,Smartbi支持的跨库数据源包括高速缓存库、Hadoop_Hive、星环、Vertica、CH、Greenplum、Infobright、Oracle、DB2 V9、MySQL、MS SQLServer、Spark SQL、Teradata_v12、Informix、IMPALA、PostgreSQL,而且只要用户创建了普通的关系数据源连接,这些数据源便会自动出现在“跨库联合数据源”当中,所能提供的整合性功能包括:

1、 使用“自助数据集”,拖拽不同数据源的表进行关联定义

注:蓝色为Sales数据源、绿色为Stock数据源

2、 基于定义跨库的自助数据集,方便的进行仪表盘制作

3、 结合“高速缓存库”,跨库查询的自助数据集可以“抽取数据”,完成ETL动作

连接数据源——拖拽关联异构数据表——(定义抽取动作)——拖拽完成可视化探索,一气呵成非常方便。这个流程非常适合初学者,为什么呢?因为仪表盘式的展现方式虽然美观但不够灵活,对于很多高级数据分析式,他们更喜欢在Excel里使用函数和公式。那么还有什么办法呢?还是推荐Smartbi V8.5,但功能是另外的“电子表格”。

电子表格功能基本原理是“用数据库字段填充单元格”,当同行单元格来自不同数据源(异构数据库)时,使用“过滤”定义,就可以把这里的I11单元格所在数据源和前面关联起来了(红框)。具体用法可查看官网WIKI。

用电子表格的好处是可以使用Excel自己的条件格式、数据格式、引用作图、公式计算等等灵活处理功能,给关联后的分析提供了足够强大的灵活性。

那这2种方法怎么选用呢?从性能角度,如果基础数据源的结果集很大,推荐用第1种,否则用第2种,除非你就喜欢自助仪表盘。那两者能不能结合起来呢,当然也是可以的,无非把第1种的抽取结果表做为电子表格的数据源呗!

所以,遇到异构数据源,想做关联分析但还没有数据仓库(或者暂时不想实现ETL),就可以使用Smartbi V8.5进行数据分析,无论流行的可视化仪表盘还是经久的电子表格(真Excel)都可自由选择。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190401A0CTAN00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券