译文|数据湖泊和网络优化:什么才是电信和大数据的下一个阶段?

在过去关系数据仓库为电信运营商提供着非常好的服务,但现在已到了不能只考虑最简单的问题的时候了。在不久的将来,非结构化数据将是燃料,将引燃权利危及风险管理和决策制定的导火索。为了利用各种数据以充分发挥其潜力,我们需要存储数据的新途径——访问和分析这些数据。

数据湖泊和沙箱

数据湖泊(企业数据中心)——是一个海量数据存储库,这个数据存储库通常是基于Hadoop架构和安置了的商用硬件集群上的——它不仅能解决数据存储的问题,而且极具集成性和可访问性,并且能够更好地进行实时分析和决策的制定。存储在数据湖泊中的信息(结构化,半结构化和非结构化信息)可以保留其原始格式和原始属性,以确保妥善保存以备将来使用。

您还可以创建一个更明确的数据湖泊——通常被称为数据沙盒——可在一个有明确范围的工程中使用。

在你决定开始创建一个数据湖泊之前,你需要意识到一个潜在的陷阱以免自己掉入,那就是想要更好地创建数据湖泊,最好的方式是请教数据分析专家。对于普通用户来说,大量的无序的元数据和非结构化数据可能是不小的挑战。沙箱是测试数据湖泊环境的好方法,并且通过使用沙箱无需大规模迁移项目就可以获得关于数据湖泊的大量好处。

安全,也是数据湖泊的一个问题。通过与IT和数据隐私团队的谈话,可以决定哪些数据可以进入数据湖泊,以及了解如何可以防止未经授权的用户的信息随意闯入。不仅如此,违背法律的问题也可能出现。你需要制定一个程序,来保证个人身份的数据是被控制且被保护的,不然就要明确运行数据过程中泄露数据的风险有多大。企业级的解决方案,可以为你提供确保数据湖泊安全的工具,但每家企业都需要确定自己可接受的暴露风险的程度,并相应地管理其数据。

响应网络管理

对于商业服务提供商来说,要做一个初始数据湖泊项目,最先考虑的应是先制定一个负责任的网络管理措施。我们的公司可能或多或少都已经做了这些,只是程度不同,有的程度较高有的较低,但是为了了解过去与现在的大网络时代状况,一个数据湖泊将要求分析家有能力处理大量历史与现实交杂的信息,这些信息是通过交换机,路由器和其他基础设施产生的。

这些信息有利于发现发展趋势,确定发展模式并且预测行为,以全面了解遭遇困难时前进的效率。你可以选择开始一个测试项目,例如确定是否可以进行基础设施建设以及在哪里添加基础设施,以满足服务等级协议的需要,以解决实时分配带宽,提高服务质量的问题,这些问题可能包括时间延迟、可靠性不确定或者预测网络组件故障的问题,这样便可以在这些问题发生之前防患于未然。

你是可以信任数据的

很显然,当你正在根据数据显示的信息来进行业务转化时,你想确定你的数据是可以被信任的。你也许也想和公司里正进行数据分析的人进行交谈,以估计他们所了解的数据质量。难道他们习惯了依赖于数据?难道他们发现了审查与他们一样和同一数据集工作的其他分析师的价值所在?在元数据方面,询问你的分析人员需要的东西或者不需要的东西是应该考虑的一个关键要求。

数据湖泊适应了那些需要理清数据偏差的人的需要,这些数据来源广泛且相互融合,是从结构化、半结构化和非结构化信息中挑选出的。

选择正确的架构

Apache Hadoop是非常适合数据湖泊或沙箱的。它在商品硬件上运行,为了降压它提供了最佳的存储方案,并可以处理海量的任何类型的数据,且该处理是非常有效的。Hadoop的企业分布使备份选项更为有效,也使其在进行关键任务时更具稳健性。

Hadoop的还提供了一个可以建立的平台。当我们不去参与打折驱动的竞争,运营商将越来越多地依赖于利用大数据来紧紧锁定目标客户的需求。随着通信服务之间交流越来越无缝集成,所有这些来源广泛的数据将作为一个很好的基础。

如果您有兴趣了解更多关于Hadoop的如何帮助您的企业的信息,一定要下载免费的电子书“大数据执行指南和Hadoop Apache”。

原文作者:Sameer Nori,本译文在原文基础上有改动

本译文由CDA数据分析研究院翻译,译者:Henry

本文分享自微信公众号 - CDA数据分析师(cdacdacda)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2015-07-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏我是攻城师

云计算之浅入了解

51940
来自专栏程序你好

苹果世界开发者大会上介绍了AI人工智能功能的iPhone手机

13120
来自专栏腾讯大数据的专栏

大咖说:如何借助腾讯云简单、高效移动开发

24950
来自专栏麦应用专栏

麦应用小程序 | App可直接打开小程序!微信到底想要干嘛?

未来,用户可以从APP跳转至某一微信小程序的指定页面,完成服务以后再跳转回原APP,多场景使用更加方便。

877140
来自专栏云计算D1net

虚拟化应用需要IT融合基础架构

提起服务器,大家都知道过去经典的分类法是根据服务器形态来区分,包括塔式、机架和刀片服务器,这似乎已经成为了官方教科书。但是,随着虚拟化应用和云计算的发展,虚拟化...

37680
来自专栏互联网数据官iCDO

【精华知识】初学者的高级谷歌分析指南-Episode 1

主编前言: 这篇文章我们请朱玉雪女士帮我们翻译自Avinash Kaushik先生的文章。了解Avinash Kaushik先生的朋友不对他的行文风格不会陌生—...

45350
来自专栏WeTest质量开放平台团队的专栏

锤子发布会,天知道服务器都经历了什么!

对于任何的活动,产品来说,服务器往往是最后一关,也是必须要过的一关,对于众多企业来说,为了不要让自己的汗水白流,为了让自己的产品顺利发布,一定要在上线之前对自己...

18740
来自专栏Spark学习技巧

程序员难以攻克的十大难题

15860
来自专栏灯塔大数据

【连载•第一话】网络大数据技术与应用(下)

摘 要 简要介绍了网络大数据的概念,分析了运营商网络大数据的构成及带来的挑战,并从网络大数据存储与技术平台、感知与获取、清洗与提炼三个方面对运营商网络大...

34270
来自专栏人称T客

云存储详解,企业数据该如何上云?

33150

扫码关注云+社区

领取腾讯云代金券