【资讯】数据控使用Hadoop的三种最常用方式

Apache Hadoop 2.0发布是Hadoop领域巨大的里程碑,因为它开启了史无前例的数据存储方式革命。Hadoop保留它典型的“大数据”基础技术,但它是否适合当下数据库及数据仓 库的使用方式?又是否有一种通用模式可以切实降低固有的使用复杂性呢? Hadoop使用的一般模式 Hadoop最初的构想是为像Yahoo、Google、Facebook等这样的公司以非常低的成本来解决大量数据的存储问题。现在,它正被越来 越多地引入企业环境中处理新不同数据类型。机器生成的数据、传感器数据、社交数据、网络日志等数据类型呈指数级增长,而且这些数据也常常(但不总是)是非 结构化。正是由于这种类型的数据将人机对话从“数据分析”带到“大数据分析”:因为挖掘这些数据可以得到商业优势。 分析应用程序以各种形式流行起来,最重要的是可以定向解决一个垂直行业的需要。乍一看,他们彼此似乎在行业和垂直上没有关系,但是实际上,当在基础设施层面观察时,会出现一些非常清晰的模式,也就是以下3种模式: Pattern 1:数据精炼厂 使用Hadoop的“数据精炼厂”模式使组织能够将这些新数据源纳入他们常用BI和分析应用程序。例如,我可能有一个应用程序,它能够在ERP和CRM系统中查看客户建立在上面的数据。但是如何才能从他们的web session(基于我们网站)中发现他们的兴趣所在?“数据精炼厂”,这个使用模式正是顾客期望的。 这里的关键概念是Hadoop是被用来提取大量数据以便更容易管理。然后生成的数据被加载到现有数据系统,这些数据可以使用传统的工具访问,但是别 忘了,这些操作都是建立在更丰富的数据集上。从某些方面来说,这是最简单的用例,因为无需对传统途径进行大的修改,企业就可以清晰的从Hadoop上获 益。无论垂直与否,精炼厂概念仍然适用。在金融服务领域,我们看到组织提炼交易数据以便更好地了解市场,分析和从复杂的组合中寻找价值。能源公司使用大数 据来分析不同地区的消费水平以便更好地预测生产水平。零售企业(任何面向消费者组织)经常使用精炼厂来洞察网络人气。电信公司使用精炼厂调用电话记录来提 取有用信息细节以便优化计费方式。最后,在昂贵的,任务关键的垂直设备上,我们常常发现Hadoop被用来预测分析和主动的故障识别。在通信技术中,这可 能是一个网络的基站。特许经营餐厅中可以用来监控冷藏库的数据。

Pattern 2: 用Apache Hadoop来探索数据 第二个最常见的用例我们称之为“数据探索”。在这种情况下,组织在Hadoop上获取和存储大量的新数据,然后直接探索这些数据。因此不是使用 Hadoop作为暂存区域进行处理然后将数据转移到企业数据仓库(就像使用精炼厂用例一样),数据是保存在Hadoop上然后直接探索。

数据探索用例通常是在企业开始可以探索以前被丢弃的数据(如网络日志,社交媒体数据等等)并构建全新的分析应用程序然后直接使用这些数据。 几乎每一个垂直系统都可以享受到探索用例的优越性。在金融服务领域,我们可以用探索用例来执行取证或识别欺诈。职业体育团队将利用数据科学来分析交易和年 度草案,就像我们在电影《Moneyball》看到的。总之数据科学和探索可以用来发现新的商业机会或新的见解,这在Hadoop之前是不可能实现的。

Pattern 3: 挖掘应用程序 第三个也是最后一个用例是“挖掘应用程序”。在这种情况下,存储在Hadoop中的数据决定了应用程序的用途。例如,通过挖掘存储的所有网 络会话数据,当用户重返网站时,我们可以为他们定制个性体验。通过挖掘Hadoop中存储的这些数据,我们可以从会话历史找到很多有用的价值。比如通过用 户的历史记录来提供一个及时反馈。

这个用例是世界上许多大型网站如Yahoo、Facebook等业务的基础。通过定制的用户体验,他们可以有效与他们的竞争对手区 分。这是雅虎Hadoop的第二个用例,就如当初它意识到Hadoop能够帮助改善广告位置一样。这个概念转变了大型的网站,同时也正在使传统的企业改善 销售,而一些小组织甚至也使用这些概念在零售网点实现动态定价。

正如你所预料的那样,随着组织熟悉在Hadoop上提炼和探索数据,最后的这种最典型的用例正在被普遍采用或接受。但与此同时,这也暗示了今后Hadoop能做什么,并且随着时间的推移和发展,传统的数据库应用程序将逐渐被Hadoop应用程序取代。 当然任何涉及到新平台技术,在进入IT企业环境时都有一定的复杂性,Hadoop也不例外。无论你是使用Hadoop来改进或是探 索,还是丰富你的数据,与现有IT基础架构的兼容将是关键。这就是为什么目前Hadoop生态系统和能集成不同供应商之间解决方案得以显著增长。 Hadoop有潜力在企业数据领域产生深远影响,通过理解常见的使用模式,您将可以极大地减少其复杂性。

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2014-05-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

面向产品经理的十款最佳分析工具

产品管理岗位一直被视为一类对知识水平要求较高的业务角色,但事实上它还接近于一整套特定技能组合,旨在帮助产品经理处理一切可能导致产品推广遭遇阻碍的难题及挑战。产品...

36360
来自专栏PPV课数据科学社区

【干货】24页PPT帮你搞定工作中简单的数据分析

有人问我该如何做数据分析。其实数据分析的过程是相对固定的,分析结论的差异性主要是分析者的视点。虽然比较固定,我还是结合了自己写文章的心得,整理出这份ppt。希望...

30880
来自专栏软件测试经验与教训

测试员的角色浅谈

44580
来自专栏腾讯开源的专栏

国内首家!主导Apache Hadoop新版本发布的,是腾讯云这位小哥哥

56550
来自专栏PPV课数据科学社区

【干货】数据控使用Hadoop的三种最常用方式

Apache Hadoop 2.0正式发布,这是Hadoop领域巨大的里程碑,因为它开启了史无前例的数据存储方式革命。Hadoop保留它典型的“大数据”基础技术...

34760
来自专栏数据观有话说

8项技能9种武器 打造企业增长黑客(上)

自Facebook 2008年成立Growth Team伊始,“增长”已经成为企业公开追求的关键词。如何以最快的方法、最低的成本、最高效的手段谋得大量增...

15320
来自专栏华章科技

美国首席数据科学家DJ·Patil亲授:打造数据产品必知秘籍

原文:Everything We Wish We'd Known About Building Data Products

9540
来自专栏Sign

超现实 AI与AR 1

这个公众号利用AR、VR诱骗了不少关注,所以感觉要还是要稍微推送一下这相关的信息了。 AR与VR一直以来是被并列在一起的,很大原因是因为现阶段我们所接触到的AR...

382120
来自专栏韩伟的专栏

需求变化的根源是什么?

在不按时算薪的行业里,软件开发应该是加班最多的一个行业。码农,是很多程序员用以自嘲的称谓。长时间的加班,大量的BUG,无穷无尽的特性,永远都在做的重构,伴随着程...

36430
来自专栏CSDN技术头条

独家揭秘RISELab实验室

UC Berkeley大学的AMPLab曾是大数据领域世界顶尖的实验室之一,六年来推出了多项主要的科技创新技术,比如Apache Spark、Apache Me...

27860

扫码关注云+社区

领取腾讯云代金券