企业数据仓库平台的所有者面临许多常见挑战。在本文中,我们着眼于七个挑战,探讨对平台和业务所有者的影响,并强调现代数据仓库如何应对这些挑战。
《哈佛商业评论》最近的一项研究证实,数据越来越多地散布在数据中心、私有云和公共云中。他们警告数据和分析领导者“为数据管理的复杂性做准备”,称成本、性能和集成为首要挑战。组织还同意采用多云和混合云策略非常重要,其中92%的企业采用多云,而82%的企业表示已实施混合云策略。因此,组织越来越希望通过公共云解决方案来扩展其本地数据中心和私有云数据仓库。但是,旧的数据仓库对公共云和私有云部署体系结构的支持有限。管理不同的解决方案在操作上效率低下,提供不一致的用户体验,并且由于缺乏通用的安全性、治理和数据沿袭而常常导致风险增加。
传统数据仓库解决方案由于其向上扩展架构而常常效率低下,传统数据仓库试图通过单一整体架构、无效的管理和性能优化工具来服务数据生命周期的多个阶段。
许多数据仓库解决方案使用高度专业化的向上扩展硬件设备,其中包括超融合、紧密耦合的计算和存储。可以随时间增加其他容量,但增量单位通常较大,约为原始容量的25%、50%或100%。这导致了容量与效率之间的持续斗争。要么意味着数据驱动的创新受到限制,要么由于未使用的资源导致分析的有效成本大大提高。
影响效率的另一个方面是在数据仓库上执行的工作负载或任务的类型。ETL作业和数据分阶段通常经常需要大量资源。在某些情况下,它们可以分别消耗多达90%的可用计算容量和70%的所需总存储空间。ETL是一项数据工程任务,应转移到横向扩展和更具成本效益的解决方案上。
同样,运营数据存储区占用了数据仓库上的资源。它们也可以移至更具成本效益的平台。总的来说,将这些工作负载移出传统数据仓库可带来更多精选的、更高价值的工作负载,并最终提高效率。
传统数据仓库解决方案通常缺乏对分配给作业和任务的资源的精细控制,以及缺乏支持多种版本的工具和引擎的能力。
传统数据仓库要求所有用户、组和工作负载使用相同版本的查询引擎和工具。这种相互依赖关系使升级过程变得复杂,并且常常扼杀了创新。相反,现代数据仓库可容纳多个版本和环境,这些版本和环境既支持创新(与最新版本的快速交互),又支持经过测试和测试的版本的操作稳定性。
常见的问题是“嘈杂的邻居”场景,其中两个或多个同等优先级的工作负载竞争资源。缺乏精细的资源级别控制是其根本原因。现代数据仓库解决方案利用云设计架构和容器化的优势,在公共云和私有云之间提供一致的性能。
性能是价值的代表,是数据仓库平台所有者最重要的考虑因素之一。本地遗留数据仓库解决方案为十多年来的性能树立了标杆,但是这种性能是有代价的。更好的价值衡量标准是性价比。
今年早些时候,GigaOM McKnight咨询小组发布了TPC99基准研究的结果,该研究比较了五个行业数据仓库解决方案的成本。该研究包括本地云解决方案和第三方PaaS解决方案的组合。下图总结了性价比结果。调查结果表明,最昂贵的解决方案的价格性能是性能最佳的解决方案的五倍以上。
资料来源:https://gigaom.com/report/cloud-data-warehouse-performance-testing-cloudera/
现代数据仓库需要支持不同数据类型、数据模型体系结构、实时和批处理分析以及各种数据访问模式的组合。
传统数据仓库平台通常容纳这些数据类型和访问模式的子集,因此需要使用第三方产品和服务进行扩充。例如,许多数据仓库平台没有高效的存储和查询引擎来分析时间序列数据,因为此功能通常位于数据仓库外部的相邻专用平台中。
数据仓库还需要适应与数据的交互工作,包括更新记录的能力,而不是简单地读取记录并对其进行分析。从历史上讲,这导致数据的不能频繁更新,通常是在更新事件发生之后才进行的。这会降低准确性,延长洞察力的时间并使平台操作复杂化。
历史记录表明,在过去的二十年中,我们每年创建的数据量呈指数增长。当前的预测表明这种趋势将会增加。而IDC预计,到2025年,全球将Datasphere揭示增长到175个zetabytes,以及近30%的数据将实时生成。例如,考虑快速增长的自动驾驶汽车市场。据估计,一辆汽车每天可以产生5到20 TB的数据。
现代数据仓库解决方案日益需要分析多PB数据集以及数量迅速增长的用户和用例。这正日益成为数十PB的数据,对于某些组织来说,数百PB的数据也正在变得如此。当今的大多数数据仓库解决方案都达到了PB级的可扩展性限制。
这具有许多含义。可以处理的数据集大小的限制降低了分析的准确性。这是由于分析的窗口较小或窗口内的数据粒度较粗。即使数据仓库解决方案可以按所需的粒度级别处理单个数据集,可伸缩性限制也限制了可以并行运行的作业数量。易于部署可能会影响多达88%的洞察时间,并影响后续的数据驱动决策。
越来越需要为用户提供灵活的选择,以探索数据和分享见解;这包括数据的统计和可视化探索,交互式运行的查询,长期运行的报告以及协作笔记本。
探索性数据分析(EDA)通常包括对数据的统计和视觉探索。尽管统计分析可以提供基础,但可视化数据通常可以在更短的时间内为更广泛的受众提供最大的洞察力。精心选择的绘图或图表可以传达复杂的关系,也可以突出显示区域以在几秒钟内进一步探索。
尽管数据可视化很重要,但是大多数数据仓库解决方案都需要其他第三方工具来可视化数据。这需要集成工作以及持续的订阅和管理成本。
大多数数据仓库查询引擎都针对有效的批处理操作进行了优化。对于需要迭代浏览数据的用户来说,这是一个障碍。由于作业排队等待处理而导致查询时间延长,效率低下,并且可能使分析人员感到沮丧。
笔记本是在数据探索阶段进行协作的好方法,更不用说它们在机器学习(ML)上下文中的广泛应用。以前仅由数据科学家使用的工具,但现在越来越多地被数据分析师使用。
面对现有信息管理基础架构的局限性,公司将越来越多地寻求现代化的数据仓库,以跟上数据量、多样性和速度的指数增长。查看这份Nucleus Research报告,该报告重点介绍Cloudera的客户如何通过Cloudera Data Platform和Cloudera Data Warehouse体验到广泛的好处,包括脚本运行时间减少88%,编码时间减少75%和编码时间减少47%在开发生命周期中。
原文作者:Daniel Hand
原文链接:https://blog.cloudera.com/seven-common-challenges-fueling-data-warehouse-modernisation/