首页
学习
活动
专区
工具
TVP
发布

Spark学习技巧

本公众号主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到hadoop家族。
专栏作者
803
文章
1202132
阅读量
247
订阅数
几种常见的 Kafka 集群监控工具
一个功能健全的kafka集群可以处理相当大的数据量,由于消息系统是很多大型应用的基石,因此broker集群在性能上的缺陷,都会引起整个应用栈的各种问题。
Spark学习技巧
2022-06-09
1.5K0
Kafka面试题系列之进阶篇
__consumer_offsets:作用是保存 Kafka 消费者的位移信息 __transaction_state:用来存储事务日志消息
Spark学习技巧
2022-01-13
4810
同样是服务注册中心,Eureka为什么比ZooKeeper优秀?
服务注册中心,给客户端提供可供调用的服务列表,客户端在进行远程服务调用时,根据服务列表然后选择服务提供方的服务地址进行服务调用。服务注册中心在分布式系统中大量应用,是分布式系统中不可或缺的组件,例如rocketmq的name server,hdfs中的namenode,dubbo中的zk注册中心,spring cloud中的服务注册中心eureka。
Spark学习技巧
2021-03-05
1K0
大数据kafka理论实操面试题
Apache Kafka是由Apache开发的一种发布订阅消息系统,它是一个分布式的、分区的和重复的日志服务。
Spark学习技巧
2021-03-05
7040
一文深入掌握druid
Druid是专用于基于大数据集的实时探索分析的开源数据存储。该系统包括列式存储,分布式的无共享架构,高级索引结构,可用于任意探索具有次秒级延迟的十亿行级的数据表。这篇文章我们主要描述Druid的架构,并且详细说明它如何支持快速聚合、灵活筛选以及低延迟数据的加载。
Spark学习技巧
2021-01-07
1K0
Curator实现基于zookeeper leader选举
Curator Framework是一个针对zookeeper做的搞层次的API,极大地简化了zookeeper的使用。它基于zookeeper构建了很多功能,处理复杂的链接管理,重试操作。下面是它的一些特点:
Spark学习技巧
2020-04-24
8190
最常见的Kafka面试题及答案
本文为您盘点最常见的Kafka面试题,同时也是对Apache Kafka初学者必备知识点的一个整理与介绍。
Spark学习技巧
2019-05-09
1.5K0
Apache Kafka:优化部署的 10 种最佳实践
Apache Kafka 肯定会像它的同名小说家一样不负众望,因为它能激奋新来者、挑战深度,若能更全面的理解它还会产生丰厚的回报。抛开文学,书归正传。遵循 kafka 最新的最佳实践,一定可以让这个强大的数据流平台的管理变得非常、非常容易,而且还会相当有效。
Spark学习技巧
2018-12-18
1.2K0
不可不知的zookeeper小工具-zkui
本文主要是首先带着大家回顾一下zookeeper在大数据中的作用,然后给大家介绍一款zk的监控管理工具。
Spark学习技巧
2018-10-25
2.6K0
唠唠Zookeeper的观察者
虽然通过让客户端直接连接到集群的投票成员,ZooKeeper也表现得非常好,但是这种架构使得很难扩展到有大量的客户端情况。问题是,随着我们添加更多投票成员,写入性能也会随着下降。这是因为写操作需要(通常)需要集群中至少一半的节点投票达成一致,因此随着更多投票者的加入,投票的成本会显著增加。
Spark学习技巧
2018-08-01
2910
Kafka源码系列之源码分析zookeeper在kafka的作用
浪尖的kafka源码系列以kafka0.8.2.2源码为例给大家进行讲解的。纯属个人爱好,希望大家对不足之处批评指正。 一,zookeeper在分布式集群的作用 1,数据发布与订阅(配置中心) 发布与订阅模型,即所谓的配置中心,顾名思义就是讲发布者将数据发布到zk节点上,共订阅者动态获取数据,实现配置的集中式管理和动态更新。例如,全局的配置信息,服务服务框架的地址列表就非常适合使用。 2,负载均衡 即软件负载均衡。最典型的是消息中间件的生产、消费者负载均衡。 3,命名服务(Naming Service)
Spark学习技巧
2018-06-22
7130
深入了解HBase架构
HBase架构组件 从物理结构上讲,HBase由三种类型的服务器构成主从式架构。Region Servers为数据的读取和写入提供服务。当访问数据时,客户端直接和Region Servers通信。Region的分配,DDL (create, delete tables)操作有HBase Master进程处理。Zookeeper是HDFS的一部分,维护着一个活动的集群。 Hadoop DataNode 存储着Region Server所管理的数据。所有的HBase数据存储在HDFS的文件中。Region S
Spark学习技巧
2018-06-22
9980
hadoop系列之深入优化
五、MapReduce的优化 1、 操作系统调优 增大打开文件数据和网络连接上限,调整内核参数net.core.somaxconn,提高读写速度和网络带宽使用率 适当调整epoll的文件描述符上限,提高Hadoop RPC并发 关闭swap。如果进程内存不足,系统会将内存中的部分数据暂时写入磁盘,当需要时再将磁盘上的数据动态换置到内存中,这样会降低进程执行效率 增加预读缓存区大小。预读可以减少磁盘寻道次数和I/O等待时间 设置openfile 2、Hdfs参数调优 core-site.xml ha
Spark学习技巧
2018-01-31
1.2K0
基于zookeeper leader选举方式一
一,基本介绍 Curator Framework是一个针对zookeeper做的搞层次的API,极大地简化了zookeeper的使用。它基于zookeeper构建了很多功能,处理复杂的链接管理,重试操作。下面是它的一些特点: 1,自动连接管理。 A),存在的潜在错误情况,需要ZooKeeper客户端创建连接和/或重试操作。Curator 自动和透明(主要)处理这些情况。 B),监视NodeDataChanged事件,并根据需要调用updateServerList()。 C),Watches 会被Curato
Spark学习技巧
2018-01-30
1.2K0
Kafka源码系列之分组消费的再平衡策略
一,Kafka消费模式 从kafka消费消息,kafka客户端提供两种模式: 分区消费,分组消费。 分区消费对应的就是我们的DirectKafkaInputDStream 分组消费对应的就是我们的KafkaInputDStream 消费者数目跟分区数目的关系: 1),一个消费者可以消费一个到全部分区数据 2),分组消费,同一个分组内所有消费者消费一份完整的数据,此时一个分区数据只能被一个消费者消费,而一个消费者可以消费多个分区数据 3),同一个消费组内,消费者数目大于分区数目后,消费者会有空余=分区数-消费
Spark学习技巧
2018-01-30
2.7K0
Kafka源码系列之如何删除topic
本文依然是以kafka0.8.2.2为例讲解 一,如何删除一个topic 删除一个topic有两个关键点: 1,配置删除参数 delete.topic.enable这个Broker参数配置为True。 2,执行 bin/kafka-topics.sh --zookeeper zk_host:port/chroot --delete --topic my_topic_name 假如不配置删除参数为true的话,topic其实并没有被清除,只是被标记为删除。此时,估计一般人的做法是删除topic在Zookeep
Spark学习技巧
2018-01-30
1.4K0
Kafka源码系列之topic创建分区分配及leader选举
一,基本介绍 本文讲解依然是基于kafka源码0.8.2.2。假如阅读过前面的文章应该知道,用户的admin指令都是通过Zookeeper发布给kafka的Controller,然后由Controller发布给具体的Broker。 Topic的创建过程亦是如此。本文主要是关注一下几点: 1,分区和副本是在何处,以怎样的方式分配给Broker。 2,kafka的Controller接收到Zookeeper的通知后做了哪些处理。 3,分区的leader和follower是如何选举的。 二,重要类介绍 1,Top
Spark学习技巧
2018-01-30
2.6K0
Kafka源码系列之实现自己的kafka监控
一,基本思路介绍 Kafka作为一个好用的且应用很广泛的消息队列,在大数据处理系统中基本是必不可少的。当然,作为缓存消息的消息队列,我们对其进行流量监控及消费滞后告警就显得异常重要了。 读过前面的文章,<Kafka源码系列之源码解析SimpleConsumer的消费过程>和<Kafka源码系列之Consumer高级API性能分析>这两篇文章的兄弟姐妹应该看本篇文章会很简单。实际就是利用SimpleConsumer获取Partition最新的offset,用Zookeeper的工具获取消费者组的各个分区的消费
Spark学习技巧
2018-01-30
1.8K0
Spark源码之Standalone模式下master持久化引擎讲解
Spark源码之Standalone模式下master持久化引擎讲解 Standalone 模式下Master为了保证故障恢复,会持久化一些重要的数据,来避免master故障导致集群不可用这种情况(也即单点故障)。目前,有四种持久化策略: 1,基于zookeeper的持久化引擎。 2,基于文件的持久化引擎。 3,用户自定义持久化引擎。 4,不使用持久化引擎。 在master的OnStart方法中,对应的源码如下: val serializer = new JavaSerializer(conf) val (
Spark学习技巧
2018-01-30
6180
Kafka源码系列之源码分析zookeeper在kafka的作用
浪尖的kafka源码系列以kafka0.8.2.2源码为例给大家进行讲解的。纯属个人爱好,希望大家对不足之处批评指正。 一,zookeeper在分布式集群的作用 1,数据发布与订阅(配置中心) 发布与订阅模型,即所谓的配置中心,顾名思义就是讲发布者将数据发布到zk节点上,共订阅者动态获取数据,实现配置的集中式管理和动态更新。例如,全局的配置信息,服务服务框架的地址列表就非常适合使用。 2,负载均衡 即软件负载均衡。最典型的是消息中间件的生产、消费者负载均衡。 3,命名服务(Naming Service)
Spark学习技巧
2018-01-30
1.1K0
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
【玩转EdgeOne】征文进行中
限时免费体验,发文即有奖~
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品·最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档