smartsi

LV1

技术专栏

SmartSiTA创建的

176 文章29 关注者

全部文章

  • Spark Streaming 2.2.0 Input DStreams和Receivers

    输入 DStreams 表示从 source 中获取输入数据流的 DStreams。在入门示例中,lines 表示输入DStream,它代表从netcat服务器...

    smartsi
    sparkKafka编程算法API
  • Spark Streaming 与 Kafka0.8 整合

    在这里我们解释如何配置 Spark Streaming 以接收来自 Kafka 的数据。有两种方法,一种为使用 Receivers 和 Kafka 高级API的...

    smartsi
    sparkAPIZooKeeperPythonScala
  • Flink 动态表的持续查询

    越来越多的公司采用流处理,并将现有的批处理应用迁移到流处理,或者对新的用例采用流处理实现的解决方案。其中许多应用集中在流数据分析上,分析的数据流来自各种源,例如...

    smartsi
    SQLAPI大数据Windows
  • Flink1.4 检查点启用与配置

    Flink 中的每个函数和操作符都可以是有状态的(请参阅使用状态了解详细信息)。有状态函数在处理单个元素/事件时存储数据。

    smartsi
    大数据存储
  • Spark Streaming 2.2.0 Example

    Spark Streaming 是 Spark Core API的一个扩展,它对实时流式数据的处理具有可扩展性、高吞吐量、可容错性等特点。数据可以从诸如Kafk...

    smartsi
    sparkKafkaJavaAPIMaven
  • Spark Streaming 2.2.0 DStreams

    离散流或者 DStreams 是 Spark Streaming 提供的基本抽象,它代表一个连续的数据流。从 source 中获取输入流,或者是输入流通过转换算...

    smartsi
    spark编程算法
  • Spark内部原理之运行原理

    在大数据领域,只有深挖数据科学领域,走在学术前沿,才能在底层算法和模型方面走在前面,从而占据领先地位。

    smartsi
    spark任务调度
  • Spark 在Spark2.0中如何使用SparkSession

    除了有时限的交互之外,SparkSession 提供了一个单一的入口来与底层的 Spark 功能进行交互,并允许使用 DataFrame 和 Dataset A...

    smartsi
    SQLAPIHivePythonJSON
  • Spark 性能调优之Shuffle调优

    大多数 Spark 作业的性能主要就是消耗在了 shuffle 环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一...

    smartsi
    BashBash 指令spark数据结构
  • Spark Spark {{JAVA_HOME}}找不到

    发现换一台机器提交作业就没有问题,怀疑是版本的问题,经过对比,原来是我编译Spark所使用的Hadoop版本和线上Hadoop版本不一致导致的,当前使用Hado...

    smartsi
    Hadoopspark打包
  • Hive Grouping Sets,CUBE与ROLLUP

    这篇文章描述了 SELECT 语句 GROUP BY 子句的增强聚合功能 GROUPING SETS。GROUPING SETS 子句是 SELECT 语句的 ...

    smartsi
    iOSJavaScript打包Rollup.jsHive
  • Hadoop 大量小文件问题的优化

    小文件是指文件大小明显小于 HDFS 上块(block)大小(默认64MB,在Hadoop2.x中默认为128MB)的文件。如果存储小文件,必定会有大量这样的小...

    smartsi
    大数据HadoopMapReduceJVM存储
  • Stream 分布式数据流的轻量级异步快照

    分布式有状态流处理支持在云中部署和执行大规模连续计算,主要针对低延迟和高吞吐量。这种模式的一个最根本的挑战就是在可能的失败情况下提供处理保证。现有方法依赖于可用...

    smartsi
    大数据Apache编程算法分布式
  • JVM 垃圾收集算法

    本文“垃圾收集算法”节选自《深入理解Java虚拟机:JVM高级特性与最佳实践》【作者:周志明】

    smartsi
    编程算法
  • Flink1.4 窗口概述

    Windows(窗口)是处理无限数据流的核心。窗口将流分解成有限大小的”桶”,在上面我们可以进行计算。本文将重点介绍 Flink 中的窗口,以及常见的窗口类型。

    smartsi
    编程算法Unix大数据WindowsJava
  • Flink1.4 数据流类型与转换关系

    Flink 为流处理和批处理分别提供了 DataStream API 和 DataSet API。正是这种高层的抽象和 flunent API 极大地便利了用户...

    smartsi
    大数据编程算法API
  • 算法一 快速排序

    smartsi
    编程算法
  • Spark2.3.0 RDD操作

    例如,map 是一个转换操作,传递给每个数据集元素一个函数并返回一个新 RDD 表示返回结果。另一方面,reduce 是一个动作操作,使用一些函数聚合 RDD ...

    smartsi
    sparkJavaScalaMapReduce
  • Scala 学习笔记之提取器

    扩展到可以应用于函数之外的值.如果 f 不是函数或方法,那么这个表达式就等同于调用:

    smartsi
    Scala编程算法
  • Spark 第一个Spark程序WordCount

    使用上述命令打包后,会在项目根目录下的target目录生成jar包。打完jar包后,我们可以使用spark-submit提交任务:

    smartsi
    MavenJAR打包

个人简介

个人成就

  • 获得 494 次赞同
  • 文章被阅读 19.7K 次

扫码关注云+社区

领取腾讯云代金券