SmartSi

176 篇文章
29 人订阅

全部文章

smartsi

Spark Streaming 2.2.0 Input DStreams和Receivers

输入 DStreams 表示从 source 中获取输入数据流的 DStreams。在入门示例中,lines 表示输入DStream,它代表从netcat服务器...

8920
smartsi

Spark Streaming 与 Kafka0.8 整合

在这里我们解释如何配置 Spark Streaming 以接收来自 Kafka 的数据。有两种方法,一种为使用 Receivers 和 Kafka 高级API的...

7220
smartsi

Flink 动态表的持续查询

越来越多的公司采用流处理,并将现有的批处理应用迁移到流处理,或者对新的用例采用流处理实现的解决方案。其中许多应用集中在流数据分析上,分析的数据流来自各种源,例如...

8720
smartsi

Flink1.4 检查点启用与配置

Flink 中的每个函数和操作符都可以是有状态的(请参阅使用状态了解详细信息)。有状态函数在处理单个元素/事件时存储数据。

11230
smartsi

Spark Streaming 2.2.0 Example

Spark Streaming 是 Spark Core API的一个扩展,它对实时流式数据的处理具有可扩展性、高吞吐量、可容错性等特点。数据可以从诸如Kafk...

6140
smartsi

Spark Streaming 2.2.0 DStreams

离散流或者 DStreams 是 Spark Streaming 提供的基本抽象,它代表一个连续的数据流。从 source 中获取输入流,或者是输入流通过转换算...

6630
smartsi

Spark内部原理之运行原理

在大数据领域,只有深挖数据科学领域,走在学术前沿,才能在底层算法和模型方面走在前面,从而占据领先地位。

5730
smartsi

Spark 在Spark2.0中如何使用SparkSession

除了有时限的交互之外,SparkSession 提供了一个单一的入口来与底层的 Spark 功能进行交互,并允许使用 DataFrame 和 Dataset A...

15040
smartsi

Spark 性能调优之Shuffle调优

大多数 Spark 作业的性能主要就是消耗在了 shuffle 环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一...

4930
smartsi

Spark Spark {{JAVA_HOME}}找不到

发现换一台机器提交作业就没有问题,怀疑是版本的问题,经过对比,原来是我编译Spark所使用的Hadoop版本和线上Hadoop版本不一致导致的,当前使用Hado...

5320
smartsi

Hive Grouping Sets,CUBE与ROLLUP

这篇文章描述了 SELECT 语句 GROUP BY 子句的增强聚合功能 GROUPING SETS。GROUPING SETS 子句是 SELECT 语句的 ...

9720
smartsi

Hadoop 大量小文件问题的优化

小文件是指文件大小明显小于 HDFS 上块(block)大小(默认64MB,在Hadoop2.x中默认为128MB)的文件。如果存储小文件,必定会有大量这样的小...

8330
smartsi

Stream 分布式数据流的轻量级异步快照

分布式有状态流处理支持在云中部署和执行大规模连续计算,主要针对低延迟和高吞吐量。这种模式的一个最根本的挑战就是在可能的失败情况下提供处理保证。现有方法依赖于可用...

8120
smartsi

JVM 垃圾收集算法

本文“垃圾收集算法”节选自《深入理解Java虚拟机:JVM高级特性与最佳实践》【作者:周志明】

5830
smartsi

Flink1.4 窗口概述

Windows(窗口)是处理无限数据流的核心。窗口将流分解成有限大小的”桶”,在上面我们可以进行计算。本文将重点介绍 Flink 中的窗口,以及常见的窗口类型。

9910
smartsi

Flink1.4 数据流类型与转换关系

Flink 为流处理和批处理分别提供了 DataStream API 和 DataSet API。正是这种高层的抽象和 flunent API 极大地便利了用户...

9140
smartsi

算法一 快速排序

7430
smartsi

Spark2.3.0 RDD操作

例如,map 是一个转换操作,传递给每个数据集元素一个函数并返回一个新 RDD 表示返回结果。另一方面,reduce 是一个动作操作,使用一些函数聚合 RDD ...

10020
smartsi

Scala 学习笔记之提取器

扩展到可以应用于函数之外的值.如果 f 不是函数或方法,那么这个表达式就等同于调用:

5210
smartsi

Spark 第一个Spark程序WordCount

使用上述命令打包后,会在项目根目录下的target目录生成jar包。打完jar包后,我们可以使用spark-submit提交任务:

5320

扫码关注云+社区

领取腾讯云代金券