smartsi

LV1
发表了文章

Spark Streaming 2.2.0 Input DStreams和Receivers

输入 DStreams 表示从 source 中获取输入数据流的 DStreams。在入门示例中,lines 表示输入DStream,它代表从netcat服务器...

smartsi
sparkKafka编程算法API
发表了文章

Spark Streaming 与 Kafka0.8 整合

在这里我们解释如何配置 Spark Streaming 以接收来自 Kafka 的数据。有两种方法,一种为使用 Receivers 和 Kafka 高级API的...

smartsi
sparkAPIZooKeeperPythonScala
发表了文章

Flink 动态表的持续查询

越来越多的公司采用流处理,并将现有的批处理应用迁移到流处理,或者对新的用例采用流处理实现的解决方案。其中许多应用集中在流数据分析上,分析的数据流来自各种源,例如...

smartsi
SQLAPI大数据Windows
发表了文章

Flink1.4 检查点启用与配置

Flink 中的每个函数和操作符都可以是有状态的(请参阅使用状态了解详细信息)。有状态函数在处理单个元素/事件时存储数据。

smartsi
大数据存储
发表了文章

Spark Streaming 2.2.0 Example

Spark Streaming 是 Spark Core API的一个扩展,它对实时流式数据的处理具有可扩展性、高吞吐量、可容错性等特点。数据可以从诸如Kafk...

smartsi
sparkKafkaJavaAPIMaven
发表了文章

Spark Streaming 2.2.0 DStreams

离散流或者 DStreams 是 Spark Streaming 提供的基本抽象,它代表一个连续的数据流。从 source 中获取输入流,或者是输入流通过转换算...

smartsi
spark编程算法
发表了文章

Spark内部原理之运行原理

在大数据领域,只有深挖数据科学领域,走在学术前沿,才能在底层算法和模型方面走在前面,从而占据领先地位。

smartsi
spark任务调度
发表了文章

Spark 在Spark2.0中如何使用SparkSession

除了有时限的交互之外,SparkSession 提供了一个单一的入口来与底层的 Spark 功能进行交互,并允许使用 DataFrame 和 Dataset A...

smartsi
SQLAPIHivePythonJSON
发表了文章

Spark 性能调优之Shuffle调优

大多数 Spark 作业的性能主要就是消耗在了 shuffle 环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一...

smartsi
BashBash 指令spark数据结构
发表了文章

Spark Spark {{JAVA_HOME}}找不到

发现换一台机器提交作业就没有问题,怀疑是版本的问题,经过对比,原来是我编译Spark所使用的Hadoop版本和线上Hadoop版本不一致导致的,当前使用Hado...

smartsi
Hadoopspark打包
发表了文章

Hive Grouping Sets,CUBE与ROLLUP

这篇文章描述了 SELECT 语句 GROUP BY 子句的增强聚合功能 GROUPING SETS。GROUPING SETS 子句是 SELECT 语句的 ...

smartsi
iOSJavaScript打包Rollup.jsHive
发表了文章

Hadoop 大量小文件问题的优化

小文件是指文件大小明显小于 HDFS 上块(block)大小(默认64MB,在Hadoop2.x中默认为128MB)的文件。如果存储小文件,必定会有大量这样的小...

smartsi
大数据HadoopMapReduceJVM存储
发表了文章

Stream 分布式数据流的轻量级异步快照

分布式有状态流处理支持在云中部署和执行大规模连续计算,主要针对低延迟和高吞吐量。这种模式的一个最根本的挑战就是在可能的失败情况下提供处理保证。现有方法依赖于可用...

smartsi
大数据Apache编程算法分布式
发表了文章

JVM 垃圾收集算法

本文“垃圾收集算法”节选自《深入理解Java虚拟机:JVM高级特性与最佳实践》【作者:周志明】

smartsi
编程算法
发表了文章

Flink1.4 窗口概述

Windows(窗口)是处理无限数据流的核心。窗口将流分解成有限大小的”桶”,在上面我们可以进行计算。本文将重点介绍 Flink 中的窗口,以及常见的窗口类型。

smartsi
编程算法Unix大数据WindowsJava

个人简介

个人成就

  • 获得 493 次赞同
  • 文章被阅读 15.7K 次

扫码关注云+社区

领取腾讯云代金券