腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Spark学习技巧

本公众号主要分享Spark使用及源码，spark 机器学习，图计算，同时会涉及到hadoop家族。

专栏作者

810

文章

1222212

阅读量

247

订阅数

8.deltalake的merge四个案例场景

批量计算 javascript scala 数据库

实际上，线上业务很多时候数据源在上报数据的时候，由于各种原因可能会重复上报数据，这就会导致数据重复，使用merge函数可以避免插入重复的数据。具体操作方法如下：

Spark学习技巧

2021-03-05

8120

大数据：简述 Lambda 架构

windows serverless 批量计算数据湖

计算机科学中有一个 CAP 定理，分布式数据存储不可能同时提供以下三个保证中的两个以上。

Spark学习技巧

2020-12-11

6100

spark过节监控告警系统实现

spark yarn 大数据 node.js 批量计算

马上要过年了，大部分公司这个时候都不会再去谋求开新业务，而大数据工匠们，想要过好年，就要保证过年期间自己对自己的应用了如执掌。一般公司都会有轮值人员，至少要有春节应急预案，尤其是对于我们这些搞平台，或者线上应用的，应急预案更是必不可少。今天浪尖主要是分享一下关于在yarn上的spark 任务我们应该做哪些监控，如何监控。

Spark学习技巧

2020-01-14

1.2K0

kappa和lambda对比

批量计算数据处理

首先我们会详细的讲解这两种架构，实现这两种架构的技术工具，还有就是如何决策使用这两种架构。

Spark学习技巧

2019-05-15

1.7K0

SparkStreaming如何解决小文件问题

批量计算 spark 大数据 windows

使用sparkstreaming时，如果实时计算结果要写入到HDFS，那么不可避免的会遇到一个问题，那就是在默认情况下会产生非常多的小文件，这是由sparkstreaming的微批处理模式和DStream(RDD)的分布式(partition)特性导致的，sparkstreaming为每个partition启动一个独立的线程来处理数据，一旦文件输出到HDFS，那么这个文件流就关闭了，再来一个batch的parttition任务，就再使用一个新的文件流，那么假设，一个batch为10s，每个输出的DStream有32个partition，那么一个小时产生的文件数将会达到(3600/10)*32=11520个之多。众多小文件带来的结果是有大量的文件元信息，比如文件的location、文件大小、block number等需要NameNode来维护，NameNode会因此鸭梨山大。不管是什么格式的文件，parquet、text,、JSON或者 Avro，都会遇到这种小文件问题，这里讨论几种处理Sparkstreaming小文件的典型方法。

Spark学习技巧

2019-05-09

6630

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态