前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据平台:先做足防守,才能更好地进攻

大数据平台:先做足防守,才能更好地进攻

作者头像
IT创事记
发布2022-08-30 14:50:20
2710
发布2022-08-30 14:50:20
举报
文章被收录于专栏:IT创事记

在大数据产业近十年潮起潮落的变迁中,有一座穿越迷雾的灯塔,驱散了人们对数据应用的疑虑,照亮了数据价值回归的征程。

它的名字叫大数据平台,是技术进化生态链的优选解。从早期侧重于存储、功能相对简单的数据库,过渡到汇集结构化数据、擅长统计分析的数据仓库,再跃升至面向复杂数据应用场景、可提供前瞻性预测的大数据平台,千行百业的数字化转型才真正拥有了坚实的底座,积累数据资源、创新商业模式成为很多企业跨越性成长的跳板。

繁荣背后的隐忧

透过权威统计的数字,亦可略窥大数据平台举足轻重的市场地位。IDC最新发布的研究报告显示:2020年全球大数据软件市场规模达4813.6亿元,中国市场包括硬软服在内的总体规模为677.3亿元,其中大数据平台软件为92.2亿元。预计未来5年,我国大数据平台软件市场平均增长率为25%。

在狂飙突进的发展阶段,进攻似乎是最好的防守。金融、医疗、电力、交通等行业是大数据平台建设的先行军和受益者,通过采集、整合生产或服务产业链各环节的数据,借助精准获客等营销手段实现了业绩增长,并逐步将数据挖掘的场景扩展到前端制造、个性化定制等领域。

然而,繁荣也会制造假象,仿佛搭上大数据平台,好事自然来。业务驱动往往是企业部署大数据平台的原始动力,但在期望丰厚回报的同时,绝不能忽视构筑坚固的防线。在数字化转型的深水区,大数据平台通常承载着企业关键业务的运行,一旦出现宕机或安全问题,必然造成难以弥补的损失。

那么,谁是大数据平台的“守护神”?怎样的防线才能让进攻无后顾之忧?

复杂系统最柔弱的软肋

墨菲定律说:如果事情有变坏的可能,不管这种可能性有多小,它总会发生。

搭载海量数据、连接众多节点、融合多元组件的大数据平台,无疑是典型的复杂系统,而这正是墨菲定律屡试不爽的舞台。任何看似微小的冲击,都会带来难以预期的连锁反应,甚至造成整个系统的崩溃。

寻找系统中真正的软肋,是谋求对策最核心的步骤。大数据平台最柔弱的地方,有些属于幸福的烦恼,当然也有致命的威胁。

海量数据本来是大数据平台进行智能挖掘和业务增值的宝贵资产,但普遍存在规模过于庞大、数据格式纷杂、衍生设备繁多等痛点。预计到2025年,中国产生的数据总量将飙升至48.6 ZB,这对大数据平台的数据防护能力带来前所未有的挑战。

很多企业的数据量已经达到了PB级,而目前大数据平台完成相关数据全部备份的时间通常要几天,甚至超过一周。所谓夜长梦多,备份需要的时间越久,隐患发作的机会就越多。在有限的窗口期内,尽快完成备份目标,才可能将危险扼杀于萌芽。

即使备份高效完成,也不等于一劳永逸。海量数据的备份副本若想在大数据平台长时间保留,累积占用的存储空间会呈几何级数增长。只有通过行之有效的“减肥瘦身”,最大限度地降低存储成本,才有望让数据“延年益寿”。

影响备份整体效果的因素不只是时间和成本,还必须综合考虑不同行业的合规要求、异构版本的兼容问题。以合规保留为例:一些行业规定相关数据必须留存几年乃至几十年,传统的备份方式难以满足需求,大数据平台需要在特殊介质存储和云存储等方面做好预案。

篱笆扎得再紧,也不可能挡住所有风险。勒索病毒的攻击性无出其右,大数据平台可以借助云端备份等方式进行应对,但不同软件和解决方案在数据防篡改能力上依然存在不小的差距——找到优秀的合作伙伴,会增添几分胜算。

直面痛点的全面防护方案

从某种意义上讲,数据备份能力已成为大数据平台核心竞争力的构成要件,也是衡量其安全防线稳固程度的重要指标。

挑战和机遇,是一枚硬币的两面。针对大数据平台在防守端的痛点,爱数推出了AnyBackup大数据平台保护方案。凭借重复数据删除、永久增量、多节点并发及表粒度备份恢复、数据一致性保障等多种技术的加持,AnyBackup可为PB级、百节点集群规模的大数据平台提供更高效、经济、安全的全面保障。

与传统的完全备份方式相比,AnyBackup采用永久增量备份的新技术,效率提升96 倍以上;永久增量备份还与重复数据删除技术相结合,节约90%的存储资源;借助不可变存储技术,能实现备份数据防篡改,擢升了抵御勒索病毒的能力;为满足合规性需求,可提供基于磁带、云存储等多种介质的归档方式。考虑到大数据平台生态的丰富性,AnyBackup还全面兼容各种平台及其组件,并支持异构版本间的数据恢复。

在诸多主流大数据平台中,Hadoop无论市场份额抑或影响力,都是当前国内市场的翘楚。以Hadoop平台为基础的应用框架,各类组件相互兼容,组成了一个相对独立的生态系统。其中,HDFS和MapReduce是体系里的核心角色,Hive与HBase则是最重要的应用组件。

防线是否坚固,必须经受来自主战场的实战考验。AnyBackup专门面向 Hadoop体系的HDFS、Hive和HBase,分别提供了量身定制的解决方案。每个方案都直面难点、切中要害,为大数据平台的全面防护树立了标杆。

HDFS 作为分布式文件系统,承担了存储Hadoop海量数据的任务。由于节点多、数据种类复杂、价值密度较低,HDFS存在备份时间长、存储成本高等常见问题。AnyBackup HDFS数据保护方案根据客户需求,将代理部署在HDFS集群中或集群外,从而实现性能保障或减少主机资源占用的目标。备份时结合增量比对算法,可实现数据的永久增量备份;无论HDFS的副本数多庞大,仅备份一个副本的数据;支持文件目录按需过滤,灵活缩减备份数据源,进一步提升了备份效率并降低了存储成本。

Hive是构建在 Hadoop平台上的数据仓库工具,也是整个平台拥有最大数据量的应用组件。基于架构要求,Hive的元数据和数据分离存储,这增大了备份时保障数据一致性的难度。加之Hive的元数据库可兼容多种关系型数据库,数据保护方案的适配性也至关重要。AnyBackup Hive数据保护方案无需停机,在线即可实现海量数据的备份,有效解决了备份数据一致性的问题。同时,AnyBackup可忽略具体的关系型数据库选型,从而实现所有Hive Metastore的全面适配。

HBase分布式存储系统为Hadoop平台提供了海量数据实时访问的能力。由于HBase管理着海量数据,且支持基于RegionSever的水平扩展和HDFS 的存储扩展,对数据保护的效率和性价比要求颇高。AnyBackup HBase数据保护方案支持表粒度的备份恢复,能够精准地修复相关数据,提升了数据保护效率。值得一提的是,AnyBackup还支持HBase备份副本间任意时间点的恢复,满足更高的RPO要求。

从方案构建到落地生根,还有很长的路要走。目前,AnyBackup已在国家医保局这样的重磅机构得到了实施和验证,爱数与企业级大数据基础软件平台星环科技的深度合作也渐次展开——双方已完成了兼容性测试和彼此的产品认证,携手打造的AnyBackup TDH大数据平台保护方案未来有望在政府、金融、电力、能源等领域开花结果。

大数据平台攻守平衡的新时代,正朝我们大踏步地走来。人工智能的深度应用让大数据平台在数据挖掘、分析决策等进攻领域如虎添翼,而安全理念的不断升级与备份技术的持续进化,又使大数据平台的防守固若金汤。曾经照亮行业前程的灯塔,将变成彻底驱散黑暗的浩瀚星空。🖋

作者关健,《IT创事记》合伙人、主笔:曾任《电脑商报》常务副社长兼执行总编、《中国计算机报》助理总编,媒体从业时间超过10年。

关健长期关注科技产业动态及趋势,与逾百位高科技公司领导者进行过对话,亦在众多科技会议与论坛中担任嘉宾主持。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-09-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 IT创事记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档