Spark / Hadoop生态系列

17 篇文章
12 人订阅

全部文章

大鹅

腾讯 · 后台开发 (已认证)

Java连接HBase的正确方法及Connection创建步骤与详解

HBASE的连接不像其他传统关系型数据库连接需要维护连接池。HBASE连接若使用错误则会导致随时间推移程序创建的TCP连接过多,导致HBASE连接失败。

10151
大鹅

腾讯 · 后台开发 (已认证)

Hbase 基础 Rowkey CF 架构 概述 预分区及Rowkey设计 学习笔记

HBase类似于数据库的存储层,HBase适用于结构化存储,并且为列式分布式数据库。

10740
大鹅

腾讯 · 后台开发 (已认证)

Hadoop HBASE集群运维相关笔记 及hdfs参数设置调优等

本篇博客将持续更新一些遇到过的Hadoop大数据集群的问题,包括HBASE HDFS的常见问题及相关的解决方案

6720
大鹅

腾讯 · 后台开发 (已认证)

Spark RDD / Dataset 相关操作及对比汇总笔记

本篇博客将会汇总记录大部分的Spark RDD / Dataset的常用操作以及一些容易混淆的操作对比。

10520
大鹅

腾讯 · 后台开发 (已认证)

Spark Streaming(DStreaming) VS Spark Structured Streaming 区别比较 优劣势

## Spark Streaming(DStreaming) VS Spark Structured Streaming 区别比较 优劣势

10420
大鹅

腾讯 · 后台开发 (已认证)

Spark Structured Streaming 使用总结

在大数据时代中我们迫切需要实时应用解决源源不断涌入的数据,然而建立这么一个应用需要解决多个问题:

16150
大鹅

腾讯 · 后台开发 (已认证)

Spark Structured Streaming + Kafka使用笔记

这篇博客将会记录Structured Streaming + Kafka的一些基本使用(Java 版)

11620
大鹅

腾讯 · 后台开发 (已认证)

HBASE 技术细节 读取与写入 Region Split与合并介绍

Hbase Rowkey CF 架构 概述 预分区及Rowkey设计 学习笔记介绍了Region类似于数据库的分片和分区的概念,每个Region负责一小部分Ro...

12430
大鹅

腾讯 · 后台开发 (已认证)

HBASE 表在HDFS目录结构

进程按角色分为Master和RegionServer,其中Master负责DDL操作,比如建表、删表,而RegionServer负责DML操作,比如数据的读写操...

15360
大鹅

腾讯 · 后台开发 (已认证)

分布式系统 概念 高可用 高并发 学习笔记

分布式系统是由一组通过网络进行通信、为了完成共同的任务而协调工作的计算机节点组成的系统。分布式系统的出现是为了用廉价的、普通的机器完成单个计算机无法完成的计算、...

11720
大鹅

腾讯 · 后台开发 (已认证)

单例模式 Java 简介 学习笔记 及多种实现方式

在我们的系统中,有一些对象其实我们只需要一个,比如说:线程池、缓存、对话框、注册表、日志对象、充当打印机、显卡等设备驱动程序的对象。事实上,这一类对象只能有一个...

15540
大鹅

腾讯 · 后台开发 (已认证)

CentOS集群安装CDH Hadoop环境 操作指引 及Yarn Hbase Spark配置安装

此篇博客主要记录集群安装Hadoop环境的流程及配置讲解。这里的IP已换成192.168.0.*

18850
大鹅

腾讯 · 后台开发 (已认证)

Kubernetes k8s 基础架构与设计理念 名词解释 学习笔记

Kubernetes最初源于谷歌内部的Borg,提供了面向应用的容器集群部署和管理系统。Kubernetes的目标旨在消除编排物理/虚拟计算,网络和存储基础设施...

46130
大鹅

腾讯 · 后台开发 (已认证)

Spark 基本概念及 jobs stages tasks 等 解释

还有一个是范围的依赖,即RangeDependency,它仅仅被org.apache.spark.rdd.UnionRDD使用。UnionRDD是把多个RDD合...

18840
大鹅

腾讯 · 后台开发 (已认证)

Spark 与 Hadoop 学习笔记 介绍及对比

这篇博客将会简单记录Hadoop与Spark对比,HDFS,MapReduce的基本概念,及Spark架构设计,RDD,运行模式。整理起来一起阅读方便我们理解整...

18620
大鹅

腾讯 · 后台开发 (已认证)

Kafka 生产与消费

接着上一篇博客,本篇主要介绍Kafka的生产与消费的过程。Producers往Brokers里面的指定Topic中写消息,Consumers从Brokers里面...

32240
大鹅

腾讯 · 后台开发 (已认证)

Kafka入门教程 消息队列基本概念与学习笔记

Apache Kafka是基于发布/订阅的容错消息系统,由Scala和Java编写,是一个分布式消息队列,具有高性能、持久化、多副本备份、横向扩展能力。

22940

扫码关注云+社区

领取腾讯云代金券