为什么大数据对企业如此重要

在当今世界,社交媒体和其他来源的数据大量涌现。企业会仔细收集这些数据并将其存储起来,以便在需要时可以重复使用。处理如此大量的数据需要专门的工具和技术。因此,大数据成为我们生活中重要的组成部分。

目前,登录Facebook账户,上传照片至Instagram或者浏览Flipkart,Amazon以及Snapdeal上的各种产品已成为我们日常工作的一部分。如果Whatsapp的通知一整天都不亮起的话,我们就会觉得一天不完整。科技发达的世界正在被诸如FB,Whatsapp,Twitter等在线社交媒体所统治。那么,你是否考虑过社交媒体及各大企业的应用程序所生成的千兆级数据?根据维基百科,每天有2.5艾字节的数据出自各种在线应用程序,所以管理和处理如此大量的数据变得相当困难。

大数据,顾名思义,是指在各种软件工具帮助下,难以捕捉、管理或处理的海量数据。大数据需要使用各种技术和计算,例如预测用户行为或其他高级数据分析,以从中获得有用的见解,进一步发挥杠杆作用。根据维基百科,大数据是一个数据集的术语,它是如此庞大或复杂,以至于传统的数据处理应用程序不足以运行——它需要被获取,组织,并系统性的分析,继而确定某些模式或趋势,进一步促进这些海量数据的处理、更新或管理。

图1:数据驱动型企业之旅

图2:企业实施大数据架构

大数据的五个维度——借助以下特征识别大数据:

1.体积:大数据的特点很大程度上取决于生成和存储数据的数量。

2.多样性:大数据的类型和性质可帮助分析者有效地利用数据所产生的见解。

3.速度:为了满足多样化的需求,大数据也被数据产生及处理的速率所支持。

4.可变性:在数据集不连续的情况下,我们可以将其视为大数据,从而牵制用于处理和管理它的多种进程。

5.真实性:在数据集质量参差不齐的情况下,分析这样的案例成为一项具有挑战性的任务,因为这会导致分析过程中出现混乱。

海量数据相关的各种挑战包括:

1.搜索,共享和传输

2.数据处理

3.分析和捕获

4.存储,更新和查询

5.信息隐私

企业如何利用大数据?

考虑到当今各种企业在线应用程序需求的巨大增长,当今时代很可能被命名为企业时代——沃尔玛每小时约100万笔的交易记录很好地解释了这一事实。这一统计数据引人深思,对于各种企业应用程序来说,跟踪和处理如此庞大的非结构化数据是多么困难。

显然,随着新数据源数量的增加、对新数据的需求以及处理速度的提高与日俱增,有效地使用数据可能是一项艰巨的任务。因此,为了提高运营效率并加速业务增长,企业需要应对并克服这些挑战。并且它们通过采用各种大数据技术和方法来处理和获取这些非结构化数据集中的正确数据(这些数据是充分和适当的)。

在过去,许多企业都投入巨资开发各种数据仓库。它们可以作为中央数据系统来报告、提取、转换和加载不同的进程,并且还可以从不同数据库和其他来源(企业内部和外部)获取数据。由于数据的种类,速度和数据量都在不断增加,这使得如此昂贵的企业数据仓库超载,并造成了巨大的处理负担。

为了摆脱这一瓶颈,企业选择了不同的开源工具,比如Hadoop,来卸载数据仓库处理功能。Hadoop可以在各种数据仓库一起使用帮助企业降低成本并提高效率比。然而,由于Hadoop需要一些特殊的技能库来部署它,企业已经开始尝试其他的选择。由戴尔、英特尔、Cloudera和Syncsort共同开发的解决方案在用例驱动的Hadoop参考体系结构上发挥了作用。该技术借助架构简化数据处理,帮助用户优化现有的数据仓库。此卸载解决方案使用Cloudera Enterprise软件提供Hadoop环境。Hadoop的Cloudera Distribution(CDH)提供了Hadoop的所有核心元素,如可扩展存储和分布式计算。它允许用户将Hadoop的部署周期缩短到几周,并在几个小时内开发Hadoop作业,从而变得完全高效。CDH还确保了高可用性、安全性以及与大量其他工具的集成。

图3:企业分析规划框架

大数据企业模型

让我们对企业正在实施的普通大数据模型进行概述,主要包括以下几个中间系统或流程。

数据源:这些是实施不同大数据技术的数据集。它们可以以非结构化,半结构化或结构化的格式存在。有一些非结构化的数据集是通过图像,音频/视频片段或文本的形式从多个社交媒体应用程序中提取的。半结构化数据集由不同的机器生成,需要较少的流程将其转换为结构化形式。对于一些来自多个在线应用程序的交易信息或其他主要数据来说,它们已经是结构化的了。

获取:在不同类型的数据集从多个源中获取并插入之后,它们可以被直接写入实时内存进程,也可以被当作信息写入磁盘、数据库交易或文件中。一旦收到这些数据,就有各种各样的选项来保存这些数据。这些数据可以被写入到多个文件系统、RDBMS,甚至各种分布式集群系统,如NoSQL和Hadoop。

整理:这是组织各种已采集数据集的过程,以便它们以适当的形式进一步分析。在这个阶段,通过使用各种技术来快速评估非结构化数据,比如在内存中使用批处理或map-reduce过程(Spark),数据的质量和格式会发生变化。对于实时流数据,还有其他的评估选项可供选择。这些基本上都是广泛的流程,可以实现开放式采集,数据仓库,数据库和分析模型。它们通过管理新数据处理环境和传统数据处理环境之间的双向差异,扩展了所有类型的数据和域。它们最重要的特征之一就是满足四种维度的标准——大容量和高速度,多样化数据集,它们还帮助我们在分析操作的过程中找到价值。除此之外,它们还提供各种数据质量服务,这些服务有助于维护元数据并跟踪转化谱系的轨迹。

分析:数据集转换为有组织形式后,会被进一步分析。所以大数据的处理输出在从低密度数据转换为高密度数据之后,被加载到基础数据层中。除了基础数据层,它还可以加载到各种数据仓库,数据发现实验室(数据存储集,处理引擎及分析工具),数据集市或返回到存储库中。由于发现实验室需要快速连接到事件处理、数据库和数据仓库,数据传输需要像InfiniBand这样的高速网络。这就是还原结果基本上是从处理大数据的输出到数据仓库进行进一步分析的地方。

我们可以看到,存储库和数据仓库都提供了现场分析,这表明分析处理可以在源系统中进行,而无需额外的步骤将数据移动到其他分析环境中。SQL分析允许在每个数据存储中独立进行各种简单和复杂的分析查询。因此,这就是为什么系统性能扮演着很重要的角色——因为数据被处理或分析的速度越快,决策过程就越快。有许多选项,如列式数据库,内存数据库或闪存,使用该选项可以将性能提高几个数量级。

决定:这是通过使用多种先进技术进行各种决策过程以达成最终结果的地方。该层由几个实时交互式数据建模工具组成。它们能够在保留大量数据的同时,对数据进行查询报告和建模。这些工具包括不同的高级分析、内藏和数据库内统计分析、高级可视化以及诸如报告、警报、指示板和查询等传统组件。

大数据对于企业应用程序的重要性和作用

大数据在许多企业应用程序中确实扮演着相当重要的角色,这就是为什么大型企业花费数百万美元去研究开发它。让我们看看这些企业通过实施大数据技术而受益的几种情况。

1.将大数据的分析和提炼与各种传统企业数据相结合,为企业带来更深入透彻的洞察力。它可以带来更高的生产力,更大的创新和更强的竞争地位。

2.大数据在医疗服务中扮演着更重要的角色。它通过使用家庭监测设备来帮助病人管理慢性或其他长期疾病,这些设备可以测量生命体征并检查病人的进展情况,以改善他们的健康状况,同时减少住院和就医的次数。

3.制造公司也在其产品中部署传感器来远程收集数据,例如通用汽车的OnStar或雷诺的R-Link。这些有助于提供通信,导航和安全服务。不仅如此,它们还揭示了使用模式、失败率和其他可以进一步降低组装和开发成本的产品改进机会。

4. 智能手机和其他GPS设备使用的显著增加,为广告商提供了一个机会——让他们能准确定位在商店、餐厅或咖啡店的消费群体。零售商将更了解他们产品的狂热买家。通过使用其电子商务网站客户的各种社交媒体和网络日志文件,可以有效地帮助他们获得没有购买他们产品的顾客信息,以及他们为什么不购买产品的原因。这使零售商更有效的定位微型客户营销活动,并提高供应链效率,从而实现更准确的需求规划。

5.最后,如果没有大数据,Facebook,Instagram,Twitter和LinkedIn等不同的社交媒体网站将不复存在。他们提供给不同用户的个性化体验只能通过存储和使用关于该用户或成员的所有可用数据来实现。

图4:大数据企业模型的工作流程图

图5:大数据市场预测

大数据用于企业应用程序的安全性如何?

由于它涉及属于几个企业的各种重要数据,这些企业可能相互关联,也可能互不相干,又或者是它们的用户,因此大数据具有高级别的安全性是非常重要的,这样就不必担心几家企业同时使用它。大数据基本上提供了一种全面的数据安全方法。

1.它确保正确的人员(内部或外部)通过正确的渠道(通常使用Kerberos)在正确的时间和正确的地点访问适当的信息和数据。

2.高安全性不仅可防止恶意攻击,还可以通过加密(使用Cloudera导航器加密)来保护组织的信息资产,并在它处于活动状态或休息时保护数据。

3.它还使所有企业能够分离不同的角色和责任,保护所有敏感数据的同时不会损坏像DBA等这样的特权用户访问权限,并使用各种数据屏蔽和子集技术。

4. 它还将审计、监视和遵从性报告扩展到大型数据系统中。

惊人的统计数据

  • 全球90%的数据都是在过去两年中创造出来的,预计到2017年大数据市场将增长为500亿美元,高于2012年的120亿美元。
  • 70%的数字宇宙(900艾字节)是由用户生成的。
  • 企业存储了所有数据的80%。
  • 白宫行政当局投资2亿美元用于大数据研究项目。
  • 到2020年,中国将占世界数据的五分之一。
  • 数据可访问性提高10%,这意味着财富1000强公司的净收入将额外增加657亿美元。

汤姆•彼得斯(Tom Peters)在畅销书《商业管理书籍》(business management books)中提到:“那些不明白管理数据和信息在新经济中作为有形资产的重要性的企业,将无法生存。”因此,大数据的兴起确实激发了企业和企业的投资。我们需要继续研究和设计新的科技与技术,为各行各业提供快速可靠的大数据通道。我们需要不断提高技能和管理各种开源工具,充分利用最佳的大数据功能。这将有助于各企业管理日益增长的数据集并有效地使用它们。

本文的版权归 浮生长恨欢娱少 所有,如需转载请联系作者。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏java思维导图

目录 第1章 = new 图说小程序(思维导图);

写在前面: 本来想写一本关于小程序的书,后来各种原因又放弃了,目录和第一章都基本写完了。不能埋没了我写的东西,见见光。哈哈。 第1章认识小程序 “微信之父”张小...

41770
来自专栏腾讯云数据库(TencentDB)

一篇文章了解腾讯云数据库TencentDB

注:本文摘自2018年11月22日腾讯云数据库CynosDB新品发布会的演讲实录。随着互联网信息的发展,大家也对云这个词汇也不是特别陌生了,作为全球首选的云服务...

39460
来自专栏云计算D1net

技术人观点:开发人员在处理云应用时该注意什么?

我们与28位分别来自23家企业的高管人员进行了交流,希望了解这些负责立足于云环境进行应用程序开发与部署的技术领导者如何看待相关议题。 ? 当被问及“开发人员需要...

38470
来自专栏ytkah

微信即将支持App直接打开小程序

51470
来自专栏云计算D1net

关于虚拟化十个无可辩驳的事实必须掌握

不管你现在处于虚拟化进程的哪个阶段,我认为有下面十个无可辩驳的事实你必须掌握,这样才能获得虚拟化的益处,避免适得其反的效果。 事实1:虚拟化能节省资金。众所周知...

37890
来自专栏云计算D1net

进行云迁移, 看起来挑战重重……

Intel Security针对云计算部署的最新研究给企业同时带来了好消息和坏消息。好消息是,根据对1200多名IT决策者的调查显示,云技术相关的数据泄露事故发...

28620
来自专栏软件

小白福利,如何入门软件编程

软件的编程学习是一项系统的工作,作为程序员最重要的就是要有良好的编程能力和方法,这就要求要求程序员具备一定的编程功底,好的编程方式和风格使得代码更加清晰易懂,也...

194100
来自专栏liulun

CMMI-4中19个PA的大致描述

组织过程资产库下面有组织级标准过程库, 这个库里一共有19各PA(就是标准过程啦) PA的英文是Process Area CM(配置管理过程,英文是Config...

20950
来自专栏罗超频道

类微信APP,移动互联网第三大入口?

罗超为虎嗅网、爱科技网撰稿。2013年4月6日虎嗅网、爱科技网头条。 中国移动低调上线飞信公众平台这事儿,在这个微信收费之争的风口,被很多人认为是中移动对腾讯...

39450
来自专栏IMWeb前端团队

前端进阶之路小思

? 有人说产品开发过程中web前端没有结论,只有随需求不停的修改,但是项目必须要有阶段性的结论,作为一个前端开发,如何避免为了某一个需求而陷入反复更改的困境呢...

223100

扫码关注云+社区

领取腾讯云代金券