👆点击“博文视点Broadview”,获取更多书讯0
数据架构是数据工程中数据概念模型的要素集合。
它从宏观角度阐述了数据功能实现的逻辑、依赖和保障性问题。
在日常工作中,有些读者对大数据架构有些问题,接下来,我们就大家关注的几个问题展开阐述。
01.企业真的需要大数据架构吗?
大数据架构是非常流行的一种架构方式,但只有在“大数据”场景下才能发挥其价值。
如果企业的数据总量在GB以下,每日数据增量为MB级别,那么不适合使用大数据架构。
大数据架构在应对中小规模数据时,几乎没有优势。
例如,在配置相同的情况下:
因此,企业只有在大数据场景下考虑大数据架构才是最合适的。
02.如何实现IT成本最优化控制?
IT成本投入是企业的主要成本模块之一,所有企业都会非常关注IT成本。
理想情况下,在系统选型时确定好最优配置(满足应用需求的最低配置),并基于最优配置确定IT采购模式,以最大化地降低IT采购成本。
但实际上,在系统开发前期会存在大量的开发、测试、调优等工作,在选型阶段就确定好最优配置几乎是不可能的;并且随着企业的不断发展,开发部门也会根据技术路径、业务需求、技能特长、成本限制等不断调整硬件需求,因此,真实的硬件需求处于动态变化之中。
为了实现IT成本最优化控制,在选型时,需要考虑资源的动态付费、弹性调整、按需使用、灵活扩展等问题,只有这样,才有可能通过不断调整逐步趋向最优平衡点。
在成本控制和优化上,第三方云服务的巨大优势让它成为企业选型时不可忽略的关键因素。
03.数据上云安全吗?
数据安全是任何一个企业都无法绕开的话题。实际上,数据安全几乎是企业选择私有化、本地化部署方案最主要的影响因素之一。
数据安全分为存储安全、灾备安全、访问安全、传输安全、分发安全等多个方面。
对企业来说,数据上云意味着数据不在企业自己“直接可控”的范围内,因此认为存在较大的安全隐患。实际上,即使是企业私有化或本地化部署方案,也无法保障数据100%安全,甚至很多企业由于管理不落地、制度不完善、流程不清晰、机制不合理而导致数据丢失(如经常出现的删库事件)。
从我的角度看,任何一种方案都不存在100%的安全保障。以阿里云的云盘为例,它能提供99.9999999%的数据可靠性保证。如果企业对自身安全性做评估,那么也基本是相同的安全水平。
因此,要提高数据的安全性,有非常多的因素需要考虑,如加密管理、流程审批、数据权限、数据隔离、多环境备份、安全认证、防火墙等,是否上云只是其中一个可能的影响因素。
04.应该选择何种行业架构方案?
在进行架构设计时,很多读者往往会倾向于行业标准或最佳实践。行业标准或最佳实践其实是整个行业当前状态的平均水准,而平均水准是否适合企业则不能一概而论。如果企业的整体状态高于或低于行业平均水准,那么平均水准就不是最优选择。
以电商行业为例,这里提到的传统数仓支撑的数据架构、传统大数据架构、流式大数据架构、流批一体大数据架构在电商行业中都有广泛的应用。因此,所谓的行业标准方案其实是一个解决方案的集合,而不是一个唯一选项。
真正的适合企业的架构方案应该是分阶段、分规模、分场景的,需要从企业发展阶段、技术实力、应用需求、未来规划等多个角度综合考虑并做出最优选择。
提示:与行业标准方案类似的另一个话题是行业先进方案。先进方案代表了行业发展的潮流,对行业发展具有引导和教育作用。但先进方案是在长期迭代的基础上逐渐演化而来的,并且拥有特定适配的场景。如果缺少前期的铺垫而盲目选择先进方案,那么往往会将企业开发和实施限于困境。这就像跑步一样,只有先学会走路才能跑得稳、跑得久。
如果您对 Python 和大数据感兴趣,或者想要提升你的技能,可以学习和实践《Python大数据架构全栈开发与应用》中的内容,相信你会收获很多知识和经验,也会为你的职业生涯和个人发展带来机会和价值。
限时五折优惠,快快扫码抢购吧!
发布:刘恩惠
审核:陈歆懿
如果喜欢本文欢迎 在看丨留言丨分享至朋友圈 三连< PAST · 往期回顾 >
技术在数字化转型过程中有哪些痛点?
点击阅读原文,查看本书详情!
本文分享自 博文视点Broadview 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!