腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Spark学习技巧

本公众号主要分享Spark使用及源码，spark 机器学习，图计算，同时会涉及到hadoop家族。

专栏作者

810

文章

1222153

阅读量

247

订阅数

一文读懂数据湖及企业中的架构特点

数据分析编程算法数据湖 serverless

数据湖概念的诞生，源自企业面临的一些挑战，如数据应该以何种方式处理和存储。最开始的时候，每个应用程序会产生、存储大量数据，而这些数据并不能被其他应用程序使用，这种状况导致数据孤岛的产生。随后数据集市应运而生，应用程序产生的数据存储在一个集中式的数据仓库中，可根据需要导出相关数据传输给企业内需要该数据的部门或个人。然而数据集市只解决了部分问题。剩余问题，包括数据管理、数据所有权与访问控制等都亟须解决，因为企业寻求获得更高的使用有效数据的能力。为了解决前面提及的各种问题，企业有很强烈的诉求搭建自己的数据湖，数据湖不但能存储传统类型数据，也能存储任意其他类型数据，并且能在它们之上做进一步的处理与分析，产生最终输出供各类程序消费。

Spark学习技巧

2021-03-05

5240

大数据：简述 Lambda 架构

windows serverless 批量计算数据湖

计算机科学中有一个 CAP 定理，分布式数据存储不可能同时提供以下三个保证中的两个以上。

Spark学习技巧

2020-12-11

6090

马蜂窝实时计算平台演进之路

spark 云计算 serverless 大数据

MES 是马蜂窝统一实时计算平台，为各条业务线提供稳定、高效的实时数据计算和查询服务。在整体设计方面，MES 借鉴了 Lambda 架构的思想。本篇文章，我们将从四个方面了解 MES：

Spark学习技巧

2019-11-18

4380

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态