腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
Spark学习技巧
本公众号主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到hadoop家族。
专栏作者
举报
810
文章
1220664
阅读量
247
订阅数
订阅专栏
申请加入专栏
全部文章(810)
spark(162)
大数据(156)
sql(131)
数据库(123)
编程算法(122)
java(101)
kafka(57)
数据分析(54)
存储(52)
其他(51)
分布式(45)
hive(45)
flink(45)
缓存(44)
云数据库 SQL Server(43)
hbase(41)
apache(39)
node.js(36)
api(35)
hadoop(30)
数据结构(29)
数据处理(28)
http(24)
ide(23)
linux(21)
zookeeper(21)
scala(20)
云数据库 Redis(20)
机器学习(19)
文件存储(19)
TDSQL MySQL 版(19)
jvm(19)
https(16)
数据(15)
开源(14)
网站(13)
网络安全(13)
windows(13)
mapreduce(12)
jdk(12)
javascript(11)
bash(11)
数据安全(11)
yarn(11)
运维(11)
数据湖(11)
企业(10)
Elasticsearch Service(10)
html(9)
json(9)
unix(9)
神经网络(9)
深度学习(9)
日志数据(9)
hashmap(9)
云计算(9)
打包(8)
git(8)
消息队列 CMQ 版(8)
系统架构(8)
maven(7)
人工智能(7)
安全(7)
php(6)
python(6)
bash 指令(6)
知识图谱(6)
腾讯云测试服务(6)
数据迁移(6)
推荐系统(6)
实时数仓(6)
数据挖掘(5)
xml(5)
jquery(5)
jar(5)
批量计算(5)
容器(5)
面向对象编程(5)
rpc(5)
rabbitmq(5)
设计(5)
数据仓库(5)
自动驾驶(4)
android(4)
搜索引擎(4)
spring(4)
mongodb(4)
电商(4)
tcp/ip(4)
微信(4)
微服务(4)
数据集成(4)
app(4)
join(4)
框架(4)
模型(4)
区块链(3)
go(3)
eclipse(3)
github(3)
全文检索(3)
容器镜像服务(3)
serverless(3)
自动化(3)
压力测试(3)
uml(3)
数据可视化(3)
架构设计(3)
任务调度(3)
bug(3)
key(3)
mysql(3)
offset(3)
partition(3)
ps(3)
产品(3)
管理(3)
函数(3)
架构(3)
流量(3)
排序(3)
日志(3)
异常(3)
官方文档(2)
NLP 服务(2)
c++(2)
c#(2)
ruby(2)
lua(2)
单片机(2)
postgresql(2)
nginx(2)
访问管理(2)
云数据库 MongoDB(2)
消息队列 CKafka 版(2)
大数据解决方案(2)
kubernetes(2)
无人驾驶(2)
ssh(2)
卷积神经网络(2)
erp(2)
jdbc(2)
二叉树(2)
aop(2)
processing(2)
sdk(2)
实时监控(2)
学习方法(2)
数据库管理(2)
数据脱敏(2)
bi(2)
date(2)
hdfs(2)
null(2)
shuffle(2)
测试(2)
程序(2)
程序员(2)
服务(2)
链表(2)
内存(2)
配置(2)
入门(2)
实践(2)
系统(2)
原理(2)
费用中心(1)
负载均衡(1)
比特币(1)
tensorflow(1)
ios(1)
objective-c(1)
c 语言(1)
actionscript(1)
css(1)
ajax(1)
sqlite(1)
nosql(1)
memcached(1)
access(1)
mvc(1)
svn(1)
struts(1)
tomcat(1)
中文分词(1)
lucene/solr(1)
analyzer(1)
负载均衡缓存(1)
tornado(1)
GPU 云服务器(1)
专用宿主机(1)
云数据迁移(1)
日志服务(1)
云直播(1)
短视频(1)
腾讯云可观测平台(1)
SSL 证书(1)
数据加密服务(1)
腾讯git代码托管(工蜂)(1)
数据备份(1)
express(1)
rollup.js(1)
游戏(1)
互联网金融(1)
爬虫(1)
正则表达式(1)
mybatis(1)
sql server(1)
opencv(1)
自动化测试(1)
kotlin(1)
scrapy(1)
dubbo(1)
ddos(1)
udp(1)
kernel(1)
socket编程(1)
无监督学习(1)
nat(1)
nest(1)
视频分析(1)
flutter(1)
风控平台(1)
安全运营平台(1)
特征工程(1)
unicode(1)
迁移(1)
groovy(1)
功能测试(1)
性能测试(1)
es(1)
实时数据集成(1)
事件总线(1)
腾讯云数据仓库 TCHouse(1)
数据湖分析(1)
智能推荐平台(1)
教育(1)
数据库审计(1)
class(1)
cpu(1)
data(1)
decimal(1)
dump(1)
elk(1)
event(1)
exists(1)
final(1)
flume(1)
foreach(1)
for循环(1)
frequency(1)
function(1)
gc(1)
google(1)
gson(1)
initialization(1)
ip(1)
it(1)
jackson(1)
java8(1)
lambda(1)
list(1)
map(1)
message(1)
overflow(1)
public(1)
push(1)
quartz(1)
rank(1)
redis(1)
request(1)
return(1)
select(1)
server(1)
sqoop(1)
stack(1)
static(1)
streaming(1)
string(1)
stringbuilder(1)
subquery(1)
thrift(1)
web(1)
报表(1)
闭包(1)
变量(1)
编译(1)
边缘计算(1)
创业(1)
磁盘(1)
单例模式(1)
登录(1)
多线程(1)
工具(1)
工作(1)
行业(1)
混合云(1)
集合(1)
技巧(1)
集群(1)
监控(1)
解决方案(1)
开发(1)
面试(1)
生命周期(1)
事件(1)
实时计算(1)
事务(1)
数据管理(1)
同步(1)
统计(1)
网关(1)
线程池(1)
效率(1)
协议(1)
性能(1)
性能监控(1)
性能优化(1)
异步编程(1)
中间件(1)
字符串(1)
搜索文章
搜索
搜索
关闭
几种常见的 Kafka 集群监控工具
kafka
实时监控
node.js
zookeeper
java
一个功能健全的kafka集群可以处理相当大的数据量,由于消息系统是很多大型应用的基石,因此broker集群在性能上的缺陷,都会引起整个应用栈的各种问题。
Spark学习技巧
2022-06-09
1.6K
0
分布式锁用Redis还是Zookeeper?
云数据库 Redis
分布式
node.js
系统 A 是一个电商系统,目前是一台机器部署,系统中有一个用户下订单的接口,但是用户下订单之前一定要去检查一下库存,确保库存足够了才会给用户下单。
Spark学习技巧
2022-04-18
230
0
Flink 源码深度解析-Async IO的实现
javascript
node.js
ajax
在Flink中使用Async I/O的话,需要有一个支持异步请求的客户端,或者以多线程异步的方式来将同步操作转化为异步操作调用;
Spark学习技巧
2022-04-18
288
0
干货|Spark优化之高性能Range Join
数据库
sql
spark
nest
node.js
Carmel是eBay内部基于Apache Spark打造的一款SQL-on-Hadoop查询引擎。通过对Apache Spark的改进,我们为用户提供了一套高可用高性能的服务,以满足eBay内部大量分析型的查询需求(如今单日查询量已超过30万)。
Spark学习技巧
2022-01-13
1.6K
0
Kafka面试题系列之进阶篇
kafka
node.js
缓存
zookeeper
__consumer_offsets:作用是保存 Kafka 消费者的位移信息 __transaction_state:用来存储事务日志消息
Spark学习技巧
2022-01-13
499
0
ElasticSearch让人叹为观止的分布式系统架构设计
node.js
Elasticsearch Service
系统架构
分布式
存储
分布式系统类型多,涉及面非常广,不同类型的系统有不同的特点,批量计算和实时计算就差别非常大。
Spark学习技巧
2022-01-13
310
0
Hadoop重点难点:Hadoop IO/压缩/序列化
node.js
hadoop
文件存储
存储
数据处理
序列化是指将结构化对象转化为字节流以便在网络上传输或写到磁盘进行永久存储的过程。反序列化是指将字节流转回结构化对象的逆过程。
Spark学习技巧
2022-01-13
894
0
MySQL 用 limit 为什么会影响性能?
云数据库 SQL Server
sql
数据库
node.js
我们知道,当limit offset rows中的offset很大时,会出现效率问题:
Spark学习技巧
2022-01-13
1.2K
0
Kafka Connect | 无缝结合Kafka构建高效ETL方案
kafka
编程算法
api
分布式
node.js
Kafka connect是Confluent公司(当时开发出Apache Kafka的核心团队成员出来创立的新公司)开发的confluent platform的核心功能。可以很简单的快速定义 connectors 将大量数据从 Kafka 移入和移出. Kafka Connect 可以摄取数据库数据或者收集应用程序的 metrics 存储到 Kafka topics,使得数据可以用于低延迟的流处理。一个导出的 job 可以将来自 Kafka topic 的数据传输到二级存储,用于系统查询或者批量进行离线分析。
Spark学习技巧
2021-08-25
1.1K
0
Kafka 原理以及分区分配策略剖析
消息队列 CMQ 版
kafka
node.js
文件存储
Apache Kafka 是一个分布式的流处理平台(分布式的基于发布/订阅模式的消息队列【Message Queue】)。
Spark学习技巧
2021-08-24
347
0
kafka存储结构以及Log清理机制
kafka
unix
存储
node.js
如上图所示、kafka 中消息是以主题 topic 为基本单位进行归类的,这里的 topic 是逻辑上的概念,实际上在磁盘存储是根据分区存储的,每个主题可以分为多个分区、分区的数量可以在主题创建的时候进行指定。例如下面 kafka 命令创建了一个 topic 为 test 的主题、该主题下有 4 个分区、每个分区有两个副本保证高可用。
Spark学习技巧
2021-07-29
629
0
数据本地性对 Spark 生产作业容错能力的负面影响
spark
数据分析
https
node.js
大数据
作者:Kent_Yao 链接:https://www.jianshu.com/p/72ffaa10220
Spark学习技巧
2021-03-29
826
0
漫画全面解释Spark企业调优点
存储
hbase
云数据库 Redis
node.js
大数据
一般企业中,物理机器的cpu:内存基本上都是1:4+,比如机器24core,一般有128GB及以上内存;48core,一般有256GB及以上内存。
Spark学习技巧
2021-03-05
382
0
解读Secondary NameNode的功能
node.js
官方文档
hadoop
大数据
最近有朋友问我Secondary NameNode的作用,是不是NameNode的备份?是不是为了防止NameNode的单点问题?确实,刚接触Hadoop,从字面上看,很容易会把Secondary NameNode当作备份节点;其实,这是一个误区,我们不能从字面来理解,阅读官方文档,我们可以知道,其实并不是这么回事,下面就来赘述下Secondary NameNode的作用。
Spark学习技巧
2021-03-05
1.4K
0
Flink State 最佳实践
flink
大数据
缓存
node.js
本文主要分享与交流 Flink 状态使用过程中的一些经验与心得,当然标题取了“最佳实践”之名,希望文章内容能给读者带去一些干货。本文内容首先是回顾 state 相关概念,并认识和区别不同的 state backend;之后将分别对 state 使用访问以及 checkpoint 容错相关内容进行详细讲解,分享一些经验和心得。
Spark学习技巧
2021-03-05
1K
0
kafka面试总结
node.js
kafka
消息队列 CMQ 版
转自:https://www.cnblogs.com/threecha/p/13737421.html
Spark学习技巧
2021-03-05
678
0
fs.defaultFS 变更,使spark-sql 查询hive失败原因分析
hive
spark
node.js
大数据
这个是粉丝投稿,很有价值,浪尖在这里给大家分享一下,也使得后面有粉丝遇到相同的问题,可以快速的解决,节省时间。
Spark学习技巧
2021-03-05
754
0
探究与解决YARN Container分配过于集中的问题
actionscript
专用宿主机
yarn
node.js
flink
最近至少有两个粉丝在问浪尖为啥自己资源充足yarn还会将spark的executor集中分配到个别的nodemanager的问题,浪尖起初只是给出了一个参数yarn.scheduler.fair.assignmultiple参数设为false,由于每天到家都是十一点了没时间翻源码,在网上找到了一篇有理有据的文章,推荐一下。
Spark学习技巧
2021-03-05
1.3K
0
实时数据仓库必备技术:Kafka知识梳理
kafka
消息队列 CMQ 版
rabbitmq
apache
node.js
为什么使用消息队列? •解耦•异步•削峰 (1) 解耦 现有系统A, B, C, 系统B和C需要系统A的数据, 然后我们就修改系统A的代码, 给系统B, C发送数据. 这时系统D也需要系统A的数据,
Spark学习技巧
2021-03-05
798
0
大数据kafka理论实操面试题
node.js
socket编程
zookeeper
kafka
大数据
Apache Kafka是由Apache开发的一种发布订阅消息系统,它是一个分布式的、分区的和重复的日志服务。
Spark学习技巧
2021-03-05
710
0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档