Smartbi V8.5如何支持异构数据的关联查询

文章来源：企鹅号 - Smartbi

近年来，各行各业的大数据分析需求和案例如暴雨般砸向所有的CIO/CTO/CDO。但凡提到数据分析，BI厂商都讲“数据仓库”，大数据厂商都讲“Hadoop”，似乎你的业务数据存放在不同的地方，就是一个灾难。甚至数据不集成在一起，就没法进行数据分析。

从哲学的思想看，绝对的观点一定是有问题的，走进真实的企业运营管理，这些异构的数据，至少最后都在Excel里面完成“会师”，呈现在Word和PPT的分析报告当中。

那么从数据库工具层面，就没有能简单解决异构数据关联查询的么？回顾历史，10年前出现了“数据联邦”的概念，它将分布式异构数据集成到一个虚拟表中，用户或应用程序可以通过该虚拟表对数据进行实时操作，代表性的产品如IBM InfoSphere Federation Server。

我们暂不讨论数据联邦为何没发展起来，有兴趣的可以研究其“性能问题”，至少针对异构的关联查询需求的技术方案是一直都存在的。最近比较流行的就是Facebook开源的Presto，它是一个分布式的查询引擎，本身并不存储数据，但是可以接入多种数据源（通过扩展式Connector组件），并且支持跨数据源的级联查询。Presto是一个OLAP的工具，擅长对海量数据进行复杂的分析，它完全基于内存的并⾏计算，数据规模覆盖GB~PB级。

如果你不想自己深入研究Presto的Master、Worker和Connector这些节点的配置和管理，推荐你直接使用已经封装好Presto的数据分析软件，比如Smartbi Insight V8.5。从官方WIKI上看到，Smartbi支持的跨库数据源包括高速缓存库、Hadoop_Hive、星环、Vertica、CH、Greenplum、Infobright、Oracle、DB2 V9、MySQL、MS SQLServer、Spark SQL、Teradata_v12、Informix、IMPALA、PostgreSQL，而且只要用户创建了普通的关系数据源连接，这些数据源便会自动出现在“跨库联合数据源”当中，所能提供的整合性功能包括：

1、使用“自助数据集”，拖拽不同数据源的表进行关联定义

注：蓝色为Sales数据源、绿色为Stock数据源

2、基于定义跨库的自助数据集，方便的进行仪表盘制作

3、结合“高速缓存库”，跨库查询的自助数据集可以“抽取数据”，完成ETL动作

连接数据源——拖拽关联异构数据表——（定义抽取动作）——拖拽完成可视化探索，一气呵成非常方便。这个流程非常适合初学者，为什么呢？因为仪表盘式的展现方式虽然美观但不够灵活，对于很多高级数据分析式，他们更喜欢在Excel里使用函数和公式。那么还有什么办法呢？还是推荐Smartbi V8.5，但功能是另外的“电子表格”。

电子表格功能基本原理是“用数据库字段填充单元格”，当同行单元格来自不同数据源（异构数据库）时，使用“过滤”定义，就可以把这里的I11单元格所在数据源和前面关联起来了（红框）。具体用法可查看官网WIKI。

用电子表格的好处是可以使用Excel自己的条件格式、数据格式、引用作图、公式计算等等灵活处理功能，给关联后的分析提供了足够强大的灵活性。

那这2种方法怎么选用呢？从性能角度，如果基础数据源的结果集很大，推荐用第1种，否则用第2种，除非你就喜欢自助仪表盘。那两者能不能结合起来呢，当然也是可以的，无非把第1种的抽取结果表做为电子表格的数据源呗！

所以，遇到异构数据源，想做关联分析但还没有数据仓库（或者暂时不想实现ETL），就可以使用Smartbi V8.5进行数据分析，无论流行的可视化仪表盘还是经久的电子表格（真Excel）都可自由选择。

发表于: 2019-04-012019-04-01 16:09:46
原文链接：https://kuaibao.qq.com/s/20190401A0CTAN00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

Smartbi V8.5如何支持异构数据的关联查询

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐