专栏首页数据派THU数据蒋堂 | 不要对自助BI期望过高

数据蒋堂 | 不要对自助BI期望过高

来源:数据蒋堂

作者:蒋步星

本文长度为1800字,建议阅读5分钟

本文分三个层面讨论自助BI是否能够真正满足用户需求。

从早期的多维分析(OLAP)到近年来的敏捷BI,BI产品厂商一直在强调自助能力,宣称可以由业务人员自己分析数据,而用户方也常常有强烈的此类需求,双方一拍即合,很容易形成购买行为。但是,BI产品的自助功能真的能让业务用户自己随心所欲地分析数据吗?

“分析”这个词并没有一个业界公认的严格定义,所以不能说这些BI产品是否过份宣传了。不过,就大多数缺乏BI应用经验的用户所期望的工作内容而言,自助分析的目标就可以说远远达不到!从经验上看,最好的情况也就能解决30%左右的问题而已,而大多数BI产品连这个数也达不到,只能处理10%左右的需求。

我们分为三个层面讨论这个问题。

多维分析

多维分析是指针对某个事先建好的数据集(称为立方体)做交互操作。这是大多数BI产品目前能够提供出来的分析能力,尽管新一代产品在界面美观度和操作方便度上有了不小的进步,但能完成的运算功能并没有本质变化。

多维分析的主要问题是有个建模过程,也就是事先准备数据集。如果要分析的数据都可以限定在某个数据集中,且动作只限于产品提供的那些(旋转、钻取、切片之类),那么没有问题。但这是个小概率事件,实际应用中经常会超出这个范围。增加一个以前没想到的数据项,和另一个数据集做一个关联运算,都会导致再建模。而建模需要求助于技术人员,这样业务人员的自助就无从谈起了。

做到多维分析这一步,只能解决10%左右的自助需求,这是BI产品最常见的自助能力。

关联查询

为解决多维分析的局限性,有些BI产品开始提供关联查询能力。一般是在多维分析前面增加一步,能够基于多个数据集关联计算出新的数据集再来做多维分析,或者在多维分析过程中支持多个立方体间的某些关联运算。这相当于允许业务用户一定程度可以自己建模。

不过,实现关联查询并不容易,其根源是关系数据库对关联运算(JOIN)的定义过于简单造成的,导致数据集之间的关联关系看起来过于繁琐,超出许多业务人员的理解能力。这个困境在BI产品的界面协助下能有一些改善,好的BI产品能够让业务人员正确处理没有形成环的关联关系。但是,要从根本上解决问题,就要改变数据库层的数据组织模型。而几乎所有的BI产品都不会重新定义数据库的数据模型,其关联查询能力就会受限。

一个可用于检验BI产品关联能力的通俗例子:查询女经理的男员工。这个很简单的查询需求中涉及到同一数据集的多次关联,大多数BI产品都处理不了(除非事先建模)。

有了关联查询能力后,BI产品能解决的自助需求占比能提高到20%-30%,具体程度要看产品提供的关联能力的强弱。

过程计算

剩下70%左右或更多的需求,都会涉及到多步骤有过程的计算。而过程计算完全超出BI产品的设计目标,甚至可以不被认为是数据分析,但却是用户特别希望解决的问题,也就是让业务人员能够随心所欲地(在其权限范围内)获取数据。

一个简单办法是使用BI产品导出基本数据,由业务人员自己用Excel等桌面工具去做。但是,Excel并不擅长处理多层次数据的关联运算,而且数据量大了也撑不住,在许多应用场景无法胜任。

在没有更好的交互计算技术出现之前,这些问题还是需要技术人员才能解决。在这个前提下,BI产品能做的事就不是让业务人员自己实现过程计算,而是要想法提高业务人员获取技术资源的效率,以及技术人员实现需求的开发效率。

具体来讲有两个方面:一是建立历史问题库,某些以前曾经做过的问题,可以直接由业务人员直接调出算法改变参数执行;即使是新需求,也可以找到类似问题以协助技术人员准确理解,技术人员和业务人员的理解不一致是造成事务延期的主要因素之一;二是提供高效且可管理的开发技术,让技术人员能快速编写和修改计算代码,并可将这些代码存入历史算法库中保管和再次执行。目前业界并没有多少适合的技术,SQL可管理性较好,但编写繁琐而难以处理有过程计算;存储过程需要再编译而不方便再次执行;Java代码也要再编译而基本上不可管理;其它脚本语言的集成性又较差也难以入库管理和再次执行。

结语

针对于用户最普遍的自助数据需求,当前BI产品的能力实际上是相当弱的。经常的情况是:BI厂商说的是多维分析,而用户想的是那些需要过程计算才能解决的问题,这个错位就会导致期望高而失望大的局面。用户要清楚自己的自助需求:是否做到多维分析就够了?有多少关联查询需求?业务人员是否会提出大量需要过程计算的问题?这样才能设定合理的期望值,知道BI产品对自己的作用在哪里,不被产品的花哨界面和流畅操作迷惑,避免事后的遗憾。

专栏作者简介

润乾软件创始人、首席科学家

清华大学计算机硕士,著有《非线性报表模型原理》等,1989年,中国首个国际奥林匹克数学竞赛团体冠军成员,个人金牌;2000年,创立润乾公司;2004年,首次在润乾报表中提出非线性报表模型,完美解决了中国式复杂报表制表难题,目前该模型已经成为报表行业的标准;2014年,经过7年开发,润乾软件发布不依赖关系代数模型的计算引擎——集算器,有效地提高了复杂结构化大数据计算的开发和运算效率;2015年,润乾软件被福布斯中文网站评为“2015福布斯中国非上市潜力企业100强”;2016年,荣获中国电子信息产业发展研究院评选的“2016年中国软件和信息服务业十大领军人物”;2017年, 自主创新研发新一代的数据仓库、云数据库等产品即将面世。

数据蒋堂

《数据蒋堂》的作者蒋步星,从事信息系统建设和数据处理长达20多年的时间。他丰富的工程经验与深厚的理论功底相互融合、创新思想与传统观念的相互碰撞,虚拟与现实的相互交织,产生出了一篇篇的沥血之作。此连载的内容涉及从数据呈现、采集到加工计算再到存储以及挖掘等各个方面。大可观数据世界之远景、小可看技术疑难之细节。针对数据领域一些技术难点,站在研发人员的角度从浅入深,进行全方位、360度无死角深度剖析;对于一些业内观点,站在技术人员角度阐述自己的思考和理解。蒋步星还会对大数据的发展,站在业内专家角度给予预测和推断。静下心来认真研读你会发现,《数据蒋堂》的文章,有的会让用户避免重复前人走过的弯路,有的会让攻城狮面对扎心的难题茅塞顿开,有的会为初入行业的读者提供一把开启数据世界的钥匙,有的甚至会让业内专家大跌眼镜,产生思想交锋。

往期回顾:

【数据蒋堂】报表的数据计算层

【数据蒋堂】报表应用的三层结构

【数据蒋堂】列式存储的另一面

【数据蒋堂】硬盘的性能特征

【数据蒋堂】我们需要怎样的OLAP?

【数据蒋堂】1T数据到底有多大

【数据蒋堂】索引的本质是排序

【数据蒋堂】功夫都在报表外--漫谈报表性能优化

【数据蒋堂】非结构化数据分析是忽悠

【数据蒋堂】多维分析的后台性能优化手段

本文分享自微信公众号 - 数据派THU(DatapiTHU),作者:蒋步星

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-06-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 数据蒋堂 | BI系统中容易被忽视的数据源功能

    用户在选购BI解决方案的时候,常常会更关注界面环节的功能指标,比如美观性、操作的流畅性、移动端支持等等。毕竟,BI是要给业务人员使用的,这些看得见的内容一般不容...

    数据派THU
  • 数据蒋堂 | 时序数据从分表到分库

    本文共5500字,建议阅读10+分钟。 一个物理表的数据量太大时,就会影响查询和计算的性能。

    数据派THU
  • 数据蒋堂 | 莫非我就是被时代呼唤的数学人

    最近中美贸易战,华为成了焦点。任老爷子一席大论,据说有27次提到了数学;紧接着,某著名公号的一篇《时代呼唤数学家》又刷了屏,直把数学家推到了风口浪尖,让人感觉数...

    数据派THU
  • 大数据的核心是什么?云技术和BI?

    关于大数据和云计算的关系人们通常会有误解。而且也会把它们混起来说,分别做一句话直白解释就是:云计算就是硬件资源的虚拟化;大数据就是海量数据的高效处理。如果做一个...

    加米谷大数据
  • IBM的Lambada AI为文本分类器生成训练数据

    IBM Research的研究人员在新发表的论文中主张使用合成数据。他们使用了经过预训练的机器学习模型来人工合成用于文本分类任务的新标签数据。他们表示这种方法被...

    AiTechYun
  • AWS SDE的在线编程挑战

    之前听闻硅谷公司面试时特别注重算法、数据结构、系统设计思路,很少关注你到底用什么编程语言,更不关心你会多少个框架,最近参加了AWS的Online Assessm...

    KevinYan
  • 你真的很熟分布式和事务吗?

    微吐槽 hello,world. 不想了,我等码农,还是看看怎么来处理分布式系统中的事务这个老大难吧! 本文略长,读者需要有一定耐心,如果你是高级码农或者架构师...

    用户1257393
  • 从GITLAB误删除数据库想到的

    酷 壳 – CoolShell http://coolshell.cn/articles/17680.html

    用户1908973
  • 大数据周周看 | 三星收购云计算公司剑指“大数据”,IBM“跨界”合作打造智慧医疗

    <数据猿导读> 上周,三星终向“大数据”出手,正式收购美国云计算公司Joyent;中国互联网金融大数据金融研究中心挂牌成立,落户北京;海通安恒与大连政府达成合作...

    数据猿
  • 大数据落地不妨从Call Center数据开始

      Hadoop、YARN、全数据分析、数据建模等这些大数据名词纷至沓来时,不由你漠视大数据的趋势。但趋势归趋势,当你着手大数据应用时,从何着手就成为了一个非常...

    小莹莹

扫码关注云+社区

领取腾讯云代金券

玩转腾讯云 有奖征文活动