数据湖泊和沙箱
数据湖泊(企业数据中心)——是一个海量数据存储库,这个数据存储库通常是基于Hadoop架构和安置了的商用硬件集群上的——它不仅能解决数据存储的问题,而且极具集成性和可访问性,并且能够更好地进行实时分析和决策的制定。存储在数据湖泊中的信息(结构化,半结构化和非结构化信息)可以保留其原始格式和原始属性,以确保妥善保存以备将来使用。
您还可以创建一个更明确的数据湖泊——通常被称为数据沙盒——可在一个有明确范围的工程中使用。
在你决定开始创建一个数据湖泊之前,你需要意识到一个潜在的陷阱以免自己掉入,那就是想要更好地创建数据湖泊,最好的方式是请教数据分析专家。对于普通用户来说,大量的无序的元数据和非结构化数据可能是不小的挑战。沙箱是测试数据湖泊环境的好方法,并且通过使用沙箱无需大规模迁移项目就可以获得关于数据湖泊的大量好处。
安全,也是数据湖泊的一个问题。通过与IT和数据隐私团队的谈话,可以决定哪些数据可以进入数据湖泊,以及了解如何可以防止未经授权的用户的信息随意闯入。不仅如此,违背法律的问题也可能出现。你需要制定一个程序,来保证个人身份的数据是被控制且被保护的,不然就要明确运行数据过程中泄露数据的风险有多大。企业级的解决方案,可以为你提供确保数据湖泊安全的工具,但每家企业都需要确定自己可接受的暴露风险的程度,并相应地管理其数据。
响应网络管理
对于商业服务提供商来说,要做一个初始数据湖泊项目,最先考虑的应是先制定一个负责任的网络管理措施。我们的公司可能或多或少都已经做了这些,只是程度不同,有的程度较高有的较低,但是为了了解过去与现在的大网络时代状况,一个数据湖泊将要求分析家有能力处理大量历史与现实交杂的信息,这些信息是通过交换机,路由器和其他基础设施产生的。
这些信息有利于发现发展趋势,确定发展模式并且预测行为,以全面了解遭遇困难时前进的效率。你可以选择开始一个测试项目,例如确定是否可以进行基础设施建设以及在哪里添加基础设施,以满足服务等级协议的需要,以解决实时分配带宽,提高服务质量的问题,这些问题可能包括时间延迟、可靠性不确定或者预测网络组件故障的问题,这样便可以在这些问题发生之前防患于未然。
你是可以信任数据的
很显然,当你正在根据数据显示的信息来进行业务转化时,你想确定你的数据是可以被信任的。你也许也想和公司里正进行数据分析的人进行交谈,以估计他们所了解的数据质量。难道他们习惯了依赖于数据?难道他们发现了审查与他们一样和同一数据集工作的其他分析师的价值所在?在元数据方面,询问你的分析人员需要的东西或者不需要的东西是应该考虑的一个关键要求。
数据湖泊适应了那些需要理清数据偏差的人的需要,这些数据来源广泛且相互融合,是从结构化、半结构化和非结构化信息中挑选出的。
选择正确的架构
Apache Hadoop是非常适合数据湖泊或沙箱的。它在商品硬件上运行,为了降压它提供了最佳的存储方案,并可以处理海量的任何类型的数据,且该处理是非常有效的。Hadoop的企业分布使备份选项更为有效,也使其在进行关键任务时更具稳健性。
Hadoop的还提供了一个可以建立的平台。当我们不去参与打折驱动的竞争,运营商将越来越多地依赖于利用大数据来紧紧锁定目标客户的需求。随着通信服务之间交流越来越无缝集成,所有这些来源广泛的数据将作为一个很好的基础。
如果您有兴趣了解更多关于Hadoop的如何帮助您的企业的信息,一定要下载免费的电子书“大数据执行指南和Hadoop Apache”。
原文作者:Sameer Nori,本译文在原文基础上有改动
本译文由CDA数据分析研究院翻译,译者:Henry