一文读懂BI商业智能与大数据应用的区别

之所以要区分大数据应用与BI(商业智能),是因为大数据应用与BI、数据挖掘等,并没有一个相对完整的认知。

BI(BusinessIntelligence)即商务智能,它是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确的提供报表并提出决策依据,帮助企业做出明智的业务经营决策。

伴随着BI的发展,是ETL,数据集成平台等概念的提出。ETL,Extraction Transformation Loading,数据提取、转换和加载,数据集成平台主要功能对各种业务数据进行抽取和相关转化,以此来满足BI、数据仓库对数据格式和内容挖掘的要求。

数据集成平台的基础工作与ETL有很大的相似性,其主要功能是实现不同系统不同格式数据地抽取,并且按照目标需求转化成为相应的格式。数据集成开始是点对点的,慢慢地发现这种模式对于系统之间,不同所有权的企业数据流向以及数据标准控制很难,为此,诞生了对统一企业数据平台的需求,来实现企业级之间的数据交 互。

数据集成平台就像网络中Hub,可以连接所有应用系统,实现系统之间数据的互通有无。数据集成平台以BI、数据仓库需求而产生,现在已经跨越了最初的需求,上升到了一个更高的阶段。

如今大数据应用更多关注非结构化数据,更多谈论互联网,Twitter、Facebook、博客等非结构化数据,如此理解大数据应用,显然就有些走偏了。结构化数据也属于大数据,且呈现出相同的特点和特征,如数据量大,增长越来越快,对数据处理要求高等。

结构化数据是广义大数据中含金量或者价值密度最高的一部分数据,与之相比,非结构化数据含金量高但价值密度低。在Hadoop平台出现之前,没有人谈论大数据。数据应用主要是结构化数据,多采用IBM、HP等老牌厂商的小型机或服务器设备。

采用传统方法处理这些价值密度低的非结构化数据,被认为是不值得的,因为其产出实在是有限。Hadoop平台出现之后,提供了一种开放的、廉价的、基于普通商业硬件的平台,其核心是分布式大规模并行处理,从而为非结构化数据处理创造条件。

大数据应用的数据来源应该包括结构化数据,如各种数据库、各种结构化文件、消息队列和应用系统数据等,其次才是非结构化数据,又可以进一步细分为两部分,一是社交媒体,如Twitter、Facebook、博客等产生的数据,包括用户点 击的习惯/特点,发表的评论,评论的特点,网民之间的关系等,这些都构成了大数据来源。另外一部分数据,也是数据量比较大的数据,就是机器设备以及传感器所产生的数据。以电信行业为例,CDR、呼叫记录,这些数据都属于原始传感器数据,主要来自路由器或者基站。此外,手机的置传感器,各种手持设备、门禁系统,摄像头、ATM机等,其数据量也非常巨大。

对于分析大数据的工具,目前所有的分析工具都侧重于结构化分析,例如针对社交媒体评论方向的分析,根据特定的词频或者语义,通过统计正面/负面评论的比例,来确定评论性质。如果有一个应用系统是接收结构化数据的,例如一个分析系统,接收这些语义就可以便于分析。

让大数据应用落地,其中的关键在于与行业应用的深度融合。

公 安行业的视频影像处理是一个特定应用领域,传统BI、ETL工具拿这些数据没有办法,采用分布式Hadoop进行处理能够带来很好的效益,因为 Hadoop可以处理数据量足够大。公安行业实际上已采集了大量视频影像数据,利用这些数据,可以追踪一个嫌疑犯的行踪,什么时间在全国哪些地区出现过。这些应用不可能单纯依靠人的力量,需要借助人脸识别、图像识别技术、模式处理,数据压缩等技术,需要海量处理软件,抓出相关特征,帮助公安人员提高工作效 率。

在电信行业,计费系统实际上是对各种数据进行整合后的结果,是一个缩小的数据。借助大数据应用,运营商可以原始大数据进行分析,例如分析传感器数据是否有异常,从而判断设备异常等,这些都是一些用传统BI工具无法实现的分析,其结果往往会出乎意料,帮助运营商提高服务水平以及用户的满意度。

在互联网行业,通过分析手机上网轨迹,可以分析了解客户群,了解用户的偏好,此外,获取地理位置的信息,也具有特定价值。

从这些行业大数据应用分析来看,一个是视频影像处理,一个是日志分析,另外一个是处理特定文件格式的分析处理,彼此之间显然没有任何通用性的特点,其共同点就是利用了廉价的大数据处理平台。

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2014-08-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

科普丨五个角度浅析大数据与BI的区别,教你迅速把握大数据的精髓

BI(Business Intelligence),中文翻译是商务智能,是一套完整的解决方案,用来将组织中现有的数据进行有效的整合,快速准确的提供报表并提出决策...

33512
来自专栏C语言及其他语言

那些优秀程序员身上的共同特质

深入了解一门技术虽然很好,但是现实世界中的问题从来都无法仅靠一种技术就能够解决。即使别人雇佣你为专业技术人员,你仍然需要明白你所掌握的技术如何与组成应用生态系统...

592
来自专栏腾讯移动品质中心TMQ的专栏

【测试左移专栏】从测试左移到工程生产力

随着互联网行业的发展,质量管理的方向逐渐向生产过程看齐。2017年是TMQ变革的重要年份,本文拟通过一个宏观的视图,给读者展现此次变革的完整思路,希望能带给大家...

1.2K0
来自专栏Kiba518

架构师的御人之道

一个团队的成员有很多人,其中包括项目经理,架构师,组长,组员等等其他人员。就纯开发而言,编写代码的人员只有架构师和组长、组员三个角色。要完成架构,就要利用好三种...

793
来自专栏云计算D1net

云计算如何结合DevOps推动软件交付成功

纵观全球经济和各行各业,各公司都在重新更新和开发技术,以便更好地感知客户所需的下一件大事,并找到赢得竞争的方法。 ? DevOps的概念可追溯到近10年前。在...

2997
来自专栏美团技术团队

美团点评酒旅数据仓库建设实践

在美团点评酒旅事业群内,业务由传统的团购形式转向预订、直连等更加丰富的产品形式,业务系统也在迅速的迭代变化,这些都对数据仓库的扩展性、稳定性、易用性提出了更高要...

4057
来自专栏网站设计制作、数字营销

网站制作是优先考虑SEO还是网站设计?

在网站制作之前,网站策划时一般要考虑网站的规划和设计,在这其中,SEO和网站本身的外形表现设计究竟要优先考虑哪个?也就是说这两个发生冲突时,要优先保证哪个?

420
来自专栏IT大咖说

道法术器— DevOps 端到端部署流水线 V2.0

摘要 DevOps独立顾问、DevOps时代联合创始人张乐为我们带来DevOps 道法术器及端到端部署流水线V2.0的分享。 ? VUCA新常态 ? 在移动互联...

3055
来自专栏云计算D1net

微软引入SAP热门服务 只为狙击亚马逊云服务

微软与SAP周一宣布,双方业已建立了合作关系,这一合作关系将有利于微软的云服务,在令人垂涎的企业云计算市场更加有效地与亚马逊展开竞争。 按照双方的合作协议,SA...

2695
来自专栏EAWorld

数据质量问题是“技术”问题还是“业务”问题?

? 是不是感觉漫画中的场景很熟悉?没错,这种场景几乎每天都在企业中重复上演。 一、数据质量问题的危害 当前越来越多的企业认识到了数据的重要性,数据仓库、大数据...

3359

扫码关注云+社区