腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
Spark学习技巧
本公众号主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到hadoop家族。
专栏作者
举报
803
文章
1202132
阅读量
247
订阅数
订阅专栏
申请加入专栏
全部文章
spark
大数据
sql
数据库
编程算法
java
kafka
数据分析
其他
存储
分布式
flink
缓存
hive
云数据库 SQL Server
hbase
apache
node.js
api
hadoop
数据结构
数据处理
http
ide
linux
云数据库 Redis
zookeeper
机器学习
scala
文件存储
TDSQL MySQL 版
jvm
https
开源
网站
网络安全
windows
mapreduce
jdk
数据
javascript
bash
数据安全
yarn
运维
数据湖
Elasticsearch Service
html
json
unix
神经网络
深度学习
日志数据
企业
hashmap
云计算
打包
git
消息队列 CMQ 版
系统架构
maven
人工智能
安全
php
python
bash 指令
知识图谱
腾讯云测试服务
数据迁移
推荐系统
实时数仓
数据挖掘
xml
jquery
jar
批量计算
容器
面向对象编程
rpc
设计
数据仓库
自动驾驶
android
搜索引擎
spring
mongodb
电商
tcp/ip
rabbitmq
微信
微服务
数据集成
app
join
模型
区块链
go
eclipse
github
全文检索
容器镜像服务
serverless
自动化
压力测试
uml
数据可视化
架构设计
任务调度
bug
key
mysql
offset
partition
ps
产品
架构
流量
异常
官方文档
NLP 服务
c++
c#
ruby
lua
单片机
postgresql
nginx
访问管理
云数据库 MongoDB
消息队列 CKafka 版
大数据解决方案
kubernetes
无人驾驶
ssh
卷积神经网络
erp
jdbc
二叉树
aop
processing
sdk
实时监控
学习方法
数据库管理
数据脱敏
bi
date
hdfs
null
shuffle
程序员
管理
框架
链表
内存
排序
配置
日志
入门
原理
费用中心
负载均衡
比特币
tensorflow
ios
objective-c
c 语言
actionscript
css
ajax
sqlite
nosql
memcached
access
mvc
svn
struts
tomcat
中文分词
lucene/solr
analyzer
负载均衡缓存
tornado
GPU 云服务器
专用宿主机
云数据迁移
日志服务
云直播
短视频
腾讯云可观测平台
SSL 证书
数据加密服务
腾讯git代码托管(工蜂)
数据备份
express
rollup.js
游戏
互联网金融
爬虫
正则表达式
mybatis
sql server
opencv
自动化测试
kotlin
scrapy
dubbo
ddos
udp
kernel
socket编程
无监督学习
nat
nest
视频分析
flutter
风控平台
安全运营平台
特征工程
unicode
groovy
功能测试
性能测试
es
实时数据集成
事件总线
腾讯云数据仓库 TCHouse
数据湖分析
智能推荐平台
教育
数据库审计
class
cpu
data
decimal
dump
elk
event
exists
final
flume
foreach
for循环
frequency
function
gc
google
gson
initialization
ip
it
jackson
java8
lambda
list
map
message
overflow
public
push
quartz
rank
request
return
select
server
sqoop
stack
static
streaming
string
stringbuilder
subquery
thrift
web
报表
编译
边缘计算
测试
程序
创业
磁盘
单例模式
登录
多线程
服务
工具
工作
行业
混合云
集合
技巧
监控
解决方案
开发
生命周期
实践
事件
实时计算
事务
数据管理
同步
统计
网关
线程池
效率
性能优化
字符串
搜索文章
搜索
搜索
关闭
几种常见的 Kafka 集群监控工具
kafka
实时监控
node.js
zookeeper
java
一个功能健全的kafka集群可以处理相当大的数据量,由于消息系统是很多大型应用的基石,因此broker集群在性能上的缺陷,都会引起整个应用栈的各种问题。
Spark学习技巧
2022-06-09
1.5K
0
Kafka面试题系列之进阶篇
kafka
node.js
缓存
zookeeper
__consumer_offsets:作用是保存 Kafka 消费者的位移信息 __transaction_state:用来存储事务日志消息
Spark学习技巧
2022-01-13
481
0
同样是服务注册中心,Eureka为什么比ZooKeeper优秀?
zookeeper
分布式
缓存
数据分析
服务注册中心,给客户端提供可供调用的服务列表,客户端在进行远程服务调用时,根据服务列表然后选择服务提供方的服务地址进行服务调用。服务注册中心在分布式系统中大量应用,是分布式系统中不可或缺的组件,例如rocketmq的name server,hdfs中的namenode,dubbo中的zk注册中心,spring cloud中的服务注册中心eureka。
Spark学习技巧
2021-03-05
1K
0
大数据kafka理论实操面试题
node.js
socket编程
zookeeper
kafka
大数据
Apache Kafka是由Apache开发的一种发布订阅消息系统,它是一个分布式的、分区的和重复的日志服务。
Spark学习技巧
2021-03-05
704
0
一文深入掌握druid
日志数据
zookeeper
存储
缓存
数据库
Druid是专用于基于大数据集的实时探索分析的开源数据存储。该系统包括列式存储,分布式的无共享架构,高级索引结构,可用于任意探索具有次秒级延迟的十亿行级的数据表。这篇文章我们主要描述Druid的架构,并且详细说明它如何支持快速聚合、灵活筛选以及低延迟数据的加载。
Spark学习技巧
2021-01-07
1K
0
Curator实现基于zookeeper leader选举
zookeeper
编程算法
Curator Framework是一个针对zookeeper做的搞层次的API,极大地简化了zookeeper的使用。它基于zookeeper构建了很多功能,处理复杂的链接管理,重试操作。下面是它的一些特点:
Spark学习技巧
2020-04-24
819
0
最常见的Kafka面试题及答案
kafka
zookeeper
apache
api
本文为您盘点最常见的Kafka面试题,同时也是对Apache Kafka初学者必备知识点的一个整理与介绍。
Spark学习技巧
2019-05-09
1.5K
0
Apache Kafka:优化部署的 10 种最佳实践
apache
zookeeper
安全
其他
http
Apache Kafka 肯定会像它的同名小说家一样不负众望,因为它能激奋新来者、挑战深度,若能更全面的理解它还会产生丰厚的回报。抛开文学,书归正传。遵循 kafka 最新的最佳实践,一定可以让这个强大的数据流平台的管理变得非常、非常容易,而且还会相当有效。
Spark学习技巧
2018-12-18
1.2K
0
不可不知的zookeeper小工具-zkui
zookeeper
大数据
分布式
git
http
本文主要是首先带着大家回顾一下zookeeper在大数据中的作用,然后给大家介绍一款zk的监控管理工具。
Spark学习技巧
2018-10-25
2.6K
0
唠唠Zookeeper的观察者
zookeeper
虽然通过让客户端直接连接到集群的投票成员,ZooKeeper也表现得非常好,但是这种架构使得很难扩展到有大量的客户端情况。问题是,随着我们添加更多投票成员,写入性能也会随着下降。这是因为写操作需要(通常)需要集群中至少一半的节点投票达成一致,因此随着更多投票者的加入,投票的成本会显著增加。
Spark学习技巧
2018-08-01
291
0
Kafka源码系列之源码分析zookeeper在kafka的作用
zookeeper
分布式
浪尖的kafka源码系列以kafka0.8.2.2源码为例给大家进行讲解的。纯属个人爱好,希望大家对不足之处批评指正。 一,zookeeper在分布式集群的作用 1,数据发布与订阅(配置中心) 发布与订阅模型,即所谓的配置中心,顾名思义就是讲发布者将数据发布到zk节点上,共订阅者动态获取数据,实现配置的集中式管理和动态更新。例如,全局的配置信息,服务服务框架的地址列表就非常适合使用。 2,负载均衡 即软件负载均衡。最典型的是消息中间件的生产、消费者负载均衡。 3,命名服务(Naming Service)
Spark学习技巧
2018-06-22
713
0
深入了解HBase架构
hbase
zookeeper
HBase架构组件 从物理结构上讲,HBase由三种类型的服务器构成主从式架构。Region Servers为数据的读取和写入提供服务。当访问数据时,客户端直接和Region Servers通信。Region的分配,DDL (create, delete tables)操作有HBase Master进程处理。Zookeeper是HDFS的一部分,维护着一个活动的集群。 Hadoop DataNode 存储着Region Server所管理的数据。所有的HBase数据存储在HDFS的文件中。Region S
Spark学习技巧
2018-06-22
998
0
hadoop系列之深入优化
hadoop
zookeeper
五、MapReduce的优化 1、 操作系统调优 增大打开文件数据和网络连接上限,调整内核参数net.core.somaxconn,提高读写速度和网络带宽使用率 适当调整epoll的文件描述符上限,提高Hadoop RPC并发 关闭swap。如果进程内存不足,系统会将内存中的部分数据暂时写入磁盘,当需要时再将磁盘上的数据动态换置到内存中,这样会降低进程执行效率 增加预读缓存区大小。预读可以减少磁盘寻道次数和I/O等待时间 设置openfile 2、Hdfs参数调优 core-site.xml ha
Spark学习技巧
2018-01-31
1.2K
0
基于zookeeper leader选举方式一
zookeeper
api
一,基本介绍 Curator Framework是一个针对zookeeper做的搞层次的API,极大地简化了zookeeper的使用。它基于zookeeper构建了很多功能,处理复杂的链接管理,重试操作。下面是它的一些特点: 1,自动连接管理。 A),存在的潜在错误情况,需要ZooKeeper客户端创建连接和/或重试操作。Curator 自动和透明(主要)处理这些情况。 B),监视NodeDataChanged事件,并根据需要调用updateServerList()。 C),Watches 会被Curato
Spark学习技巧
2018-01-30
1.2K
0
Kafka源码系列之分组消费的再平衡策略
zookeeper
kafka
java
一,Kafka消费模式 从kafka消费消息,kafka客户端提供两种模式: 分区消费,分组消费。 分区消费对应的就是我们的DirectKafkaInputDStream 分组消费对应的就是我们的KafkaInputDStream 消费者数目跟分区数目的关系: 1),一个消费者可以消费一个到全部分区数据 2),分组消费,同一个分组内所有消费者消费一份完整的数据,此时一个分区数据只能被一个消费者消费,而一个消费者可以消费多个分区数据 3),同一个消费组内,消费者数目大于分区数目后,消费者会有空余=分区数-消费
Spark学习技巧
2018-01-30
2.7K
0
Kafka源码系列之如何删除topic
zookeeper
本文依然是以kafka0.8.2.2为例讲解 一,如何删除一个topic 删除一个topic有两个关键点: 1,配置删除参数 delete.topic.enable这个Broker参数配置为True。 2,执行 bin/kafka-topics.sh --zookeeper zk_host:port/chroot --delete --topic my_topic_name 假如不配置删除参数为true的话,topic其实并没有被清除,只是被标记为删除。此时,估计一般人的做法是删除topic在Zookeep
Spark学习技巧
2018-01-30
1.4K
0
Kafka源码系列之topic创建分区分配及leader选举
zookeeper
一,基本介绍 本文讲解依然是基于kafka源码0.8.2.2。假如阅读过前面的文章应该知道,用户的admin指令都是通过Zookeeper发布给kafka的Controller,然后由Controller发布给具体的Broker。 Topic的创建过程亦是如此。本文主要是关注一下几点: 1,分区和副本是在何处,以怎样的方式分配给Broker。 2,kafka的Controller接收到Zookeeper的通知后做了哪些处理。 3,分区的leader和follower是如何选举的。 二,重要类介绍 1,Top
Spark学习技巧
2018-01-30
2.6K
0
Kafka源码系列之实现自己的kafka监控
java
zookeeper
一,基本思路介绍 Kafka作为一个好用的且应用很广泛的消息队列,在大数据处理系统中基本是必不可少的。当然,作为缓存消息的消息队列,我们对其进行流量监控及消费滞后告警就显得异常重要了。 读过前面的文章,<Kafka源码系列之源码解析SimpleConsumer的消费过程>和<Kafka源码系列之Consumer高级API性能分析>这两篇文章的兄弟姐妹应该看本篇文章会很简单。实际就是利用SimpleConsumer获取Partition最新的offset,用Zookeeper的工具获取消费者组的各个分区的消费
Spark学习技巧
2018-01-30
1.8K
0
Spark源码之Standalone模式下master持久化引擎讲解
spark
zookeeper
Spark源码之Standalone模式下master持久化引擎讲解 Standalone 模式下Master为了保证故障恢复,会持久化一些重要的数据,来避免master故障导致集群不可用这种情况(也即单点故障)。目前,有四种持久化策略: 1,基于zookeeper的持久化引擎。 2,基于文件的持久化引擎。 3,用户自定义持久化引擎。 4,不使用持久化引擎。 在master的OnStart方法中,对应的源码如下: val serializer = new JavaSerializer(conf) val (
Spark学习技巧
2018-01-30
618
0
Kafka源码系列之源码分析zookeeper在kafka的作用
zookeeper
分布式
浪尖的kafka源码系列以kafka0.8.2.2源码为例给大家进行讲解的。纯属个人爱好,希望大家对不足之处批评指正。 一,zookeeper在分布式集群的作用 1,数据发布与订阅(配置中心) 发布与订阅模型,即所谓的配置中心,顾名思义就是讲发布者将数据发布到zk节点上,共订阅者动态获取数据,实现配置的集中式管理和动态更新。例如,全局的配置信息,服务服务框架的地址列表就非常适合使用。 2,负载均衡 即软件负载均衡。最典型的是消息中间件的生产、消费者负载均衡。 3,命名服务(Naming Service)
Spark学习技巧
2018-01-30
1.1K
0
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
点击查看
【玩转EdgeOne】征文进行中
限时免费体验,发文即有奖~
立即参加
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品·最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档