Spark学习技巧-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Spark学习技巧

本公众号主要分享Spark使用及源码，spark 机器学习，图计算，同时会涉及到hadoop家族。

专栏成员

810

文章

1301768

阅读量

248

订阅数

大厂实时数仓建设项目实例

数据湖分析数据湖数据分析数据处理 sql

目前各大公司的产品需求和内部决策对于数据实时性的要求越来越迫切，需要实时数仓的能力来赋能。传统离线数仓的数据时效性是 T+1，调度频率以天为单位，无法支撑实时场景的数据需求。即使能将调度频率设置成小时，也只能解决部分时效性要求不高的场景，对于实效性要求很高的场景还是无法优雅的支撑。因此实时使用数据的问题必须得到有效解决。

Spark学习技巧

2022-04-18

1.1K0

数据湖VS数据仓库？湖仓一体了解一下

数据湖腾讯云数据仓库 TCHouse 数据安全数据分析数据处理

导读：随着近几年数据湖概念的兴起，业界对于数据仓库和数据湖的对比甚至争论就一直不断。有人说数据湖是下一代大数据平台，各大云厂商也在纷纷的提出自己的数据湖解决方案，一些云数仓产品也增加了和数据湖联动的特性。

Spark学习技巧

2021-03-11

2.9K0

网易数据湖探索与实践-范欣欣

数据湖 flink 大数据 html hive

导读：今天主要和大家交流的是网易在数据湖Iceberg的一些思考与实践。从网易在数据仓库建设中遇到的痛点出发，介绍对数据湖Iceberg的探索以及实践之路。

Spark学习技巧

2021-03-05

9980

漫说数据湖——如何建湖？如何做数据ETL？如何使用数据......

数据湖数据安全数据处理大数据

后来，为了更有效率的记事和工作，数据库出现了。数据库核心是满足快速的增删改查，应对联机事务。

Spark学习技巧

2021-03-05

7620

用 Apache Pulsar SQL 查询数据流

sql apache 存储 uml 数据湖

Apache Pulsar 越来越受欢迎，尤其在成为 Apache 软件基金会的顶级项目后。

Spark学习技巧

2021-03-05

1.5K0

Apache Flink OLAP引擎性能优化及应用

flink 大数据 apache 数据湖 windows

导读：本次分享的主题为Apache Flink新场景——OLAP引擎，主要内容包括：

Spark学习技巧

2021-03-05

7420

从数仓到数据中台，谈技术选型最优解

数据湖数据库数据安全数据分析数据处理

21世纪的第一个10年，企业级数据仓库（EDW）从萌芽到蓬勃发展，“IOT”( IBM、Oracle、Teradata)占领了大部分市场，提供数据仓库建设从硬件、软件到实施的整体方案。

Spark学习技巧

2021-03-05

8520

一文读懂数据湖及企业中的架构特点

数据分析编程算法数据湖 serverless

数据湖概念的诞生，源自企业面临的一些挑战，如数据应该以何种方式处理和存储。最开始的时候，每个应用程序会产生、存储大量数据，而这些数据并不能被其他应用程序使用，这种状况导致数据孤岛的产生。随后数据集市应运而生，应用程序产生的数据存储在一个集中式的数据仓库中，可根据需要导出相关数据传输给企业内需要该数据的部门或个人。然而数据集市只解决了部分问题。剩余问题，包括数据管理、数据所有权与访问控制等都亟须解决，因为企业寻求获得更高的使用有效数据的能力。为了解决前面提及的各种问题，企业有很强烈的诉求搭建自己的数据湖，数据湖不但能存储传统类型数据，也能存储任意其他类型数据，并且能在它们之上做进一步的处理与分析，产生最终输出供各类程序消费。

Spark学习技巧

2021-03-05

5800

Flink 在实时金融数据湖的应用

云计算数据湖编程算法大数据 flink

导读：本文由中原银行大数据平台研发工程师白学余分享，主要介绍实时金融数据湖在中原银行的应用。主要内容包括：

Spark学习技巧

2021-03-05

9360

基于 Flink+Iceberg 构建企业级实时数据湖

apache 数据湖数据分析 hive 开源

Apache Flink 是大数据领域非常流行的流批统一的计算引擎，数据湖是顺应云时代发展潮流的新型技术架构。那么当 Apache Flink 遇见数据湖时，会碰撞出什么样的火花呢？本次分享主要包括以下核心内容：

Spark学习技巧

2021-03-05

2.1K0

大数据：简述 Lambda 架构

windows serverless 批量计算数据湖

计算机科学中有一个 CAP 定理，分布式数据存储不可能同时提供以下三个保证中的两个以上。

Spark学习技巧

2020-12-11

6590

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态