腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Spark学习技巧

本公众号主要分享Spark使用及源码，spark 机器学习，图计算，同时会涉及到hadoop家族。

专栏作者

810

文章

1220664

阅读量

247

订阅数

几种常见的 Kafka 集群监控工具

kafka 实时监控 node.js zookeeper java

一个功能健全的kafka集群可以处理相当大的数据量，由于消息系统是很多大型应用的基石，因此broker集群在性能上的缺陷，都会引起整个应用栈的各种问题。

Spark学习技巧

2022-06-09

1.6K0

分布式锁用Redis还是Zookeeper？

云数据库 Redis 分布式 node.js

系统 A 是一个电商系统，目前是一台机器部署，系统中有一个用户下订单的接口，但是用户下订单之前一定要去检查一下库存，确保库存足够了才会给用户下单。

Spark学习技巧

2022-04-18

2300

Flink 源码深度解析-Async IO的实现

javascript node.js ajax

在Flink中使用Async I/O的话，需要有一个支持异步请求的客户端，或者以多线程异步的方式来将同步操作转化为异步操作调用；

Spark学习技巧

2022-04-18

2880

干货|Spark优化之高性能Range Join

数据库 sql spark nest node.js

Carmel是eBay内部基于Apache Spark打造的一款SQL-on-Hadoop查询引擎。通过对Apache Spark的改进，我们为用户提供了一套高可用高性能的服务，以满足eBay内部大量分析型的查询需求（如今单日查询量已超过30万）。

Spark学习技巧

2022-01-13

1.6K0

Kafka面试题系列之进阶篇

kafka node.js 缓存 zookeeper

__consumer_offsets：作用是保存 Kafka 消费者的位移信息 __transaction_state：用来存储事务日志消息

Spark学习技巧

2022-01-13

4990

ElasticSearch让人叹为观止的分布式系统架构设计

node.js Elasticsearch Service 系统架构分布式存储

分布式系统类型多，涉及面非常广，不同类型的系统有不同的特点，批量计算和实时计算就差别非常大。

Spark学习技巧

2022-01-13

3100

Hadoop重点难点：Hadoop IO/压缩/序列化

node.js hadoop 文件存储存储数据处理

序列化是指将结构化对象转化为字节流以便在网络上传输或写到磁盘进行永久存储的过程。反序列化是指将字节流转回结构化对象的逆过程。

Spark学习技巧

2022-01-13

8940

MySQL 用 limit 为什么会影响性能？

云数据库 SQL Server sql 数据库 node.js

我们知道，当limit offset rows中的offset很大时，会出现效率问题：

Spark学习技巧

2022-01-13

1.2K0

Kafka Connect | 无缝结合Kafka构建高效ETL方案

kafka 编程算法 api 分布式 node.js

Kafka connect是Confluent公司(当时开发出Apache Kafka的核心团队成员出来创立的新公司)开发的confluent platform的核心功能。可以很简单的快速定义 connectors 将大量数据从 Kafka 移入和移出. Kafka Connect 可以摄取数据库数据或者收集应用程序的 metrics 存储到 Kafka topics，使得数据可以用于低延迟的流处理。一个导出的 job 可以将来自 Kafka topic 的数据传输到二级存储，用于系统查询或者批量进行离线分析。

Spark学习技巧

2021-08-25

1.1K0

Kafka 原理以及分区分配策略剖析

消息队列 CMQ 版 kafka node.js 文件存储

Apache Kafka 是一个分布式的流处理平台（分布式的基于发布/订阅模式的消息队列【Message Queue】）。

Spark学习技巧

2021-08-24

3470

kafka存储结构以及Log清理机制

kafka unix 存储 node.js

如上图所示、kafka 中消息是以主题 topic 为基本单位进行归类的，这里的 topic 是逻辑上的概念，实际上在磁盘存储是根据分区存储的，每个主题可以分为多个分区、分区的数量可以在主题创建的时候进行指定。例如下面 kafka 命令创建了一个 topic 为 test 的主题、该主题下有 4 个分区、每个分区有两个副本保证高可用。

Spark学习技巧

2021-07-29

6290

数据本地性对 Spark 生产作业容错能力的负面影响

spark 数据分析 https node.js 大数据

作者：Kent_Yao 链接：https://www.jianshu.com/p/72ffaa10220

Spark学习技巧

2021-03-29

8260

漫画全面解释Spark企业调优点

存储 hbase 云数据库 Redis node.js 大数据

一般企业中，物理机器的cpu:内存基本上都是1:4+，比如机器24core，一般有128GB及以上内存；48core，一般有256GB及以上内存。

Spark学习技巧

2021-03-05

3820

解读Secondary NameNode的功能

node.js 官方文档 hadoop 大数据

最近有朋友问我Secondary NameNode的作用，是不是NameNode的备份？是不是为了防止NameNode的单点问题？确实，刚接触Hadoop，从字面上看，很容易会把Secondary NameNode当作备份节点；其实，这是一个误区，我们不能从字面来理解，阅读官方文档，我们可以知道，其实并不是这么回事，下面就来赘述下Secondary NameNode的作用。

Spark学习技巧

2021-03-05

1.4K0

Flink State 最佳实践

flink 大数据缓存 node.js

本文主要分享与交流 Flink 状态使用过程中的一些经验与心得，当然标题取了“最佳实践”之名，希望文章内容能给读者带去一些干货。本文内容首先是回顾 state 相关概念，并认识和区别不同的 state backend；之后将分别对 state 使用访问以及 checkpoint 容错相关内容进行详细讲解，分享一些经验和心得。

Spark学习技巧

2021-03-05

1K0

kafka面试总结

node.js kafka 消息队列 CMQ 版

转自：https://www.cnblogs.com/threecha/p/13737421.html

Spark学习技巧

2021-03-05

6780

fs.defaultFS 变更，使spark-sql 查询hive失败原因分析

hive spark node.js 大数据

这个是粉丝投稿，很有价值，浪尖在这里给大家分享一下，也使得后面有粉丝遇到相同的问题，可以快速的解决，节省时间。

Spark学习技巧

2021-03-05

7540

探究与解决YARN Container分配过于集中的问题

actionscript 专用宿主机 yarn node.js flink

最近至少有两个粉丝在问浪尖为啥自己资源充足yarn还会将spark的executor集中分配到个别的nodemanager的问题，浪尖起初只是给出了一个参数yarn.scheduler.fair.assignmultiple参数设为false，由于每天到家都是十一点了没时间翻源码，在网上找到了一篇有理有据的文章，推荐一下。

Spark学习技巧

2021-03-05

1.3K0

实时数据仓库必备技术：Kafka知识梳理

kafka 消息队列 CMQ 版 rabbitmq apache node.js

为什么使用消息队列? •解耦•异步•削峰 (1) 解耦现有系统A, B, C, 系统B和C需要系统A的数据, 然后我们就修改系统A的代码, 给系统B, C发送数据. 这时系统D也需要系统A的数据,

Spark学习技巧

2021-03-05

7980

大数据kafka理论实操面试题

node.js socket编程 zookeeper kafka 大数据

Apache Kafka是由Apache开发的一种发布订阅消息系统，它是一个分布式的、分区的和重复的日志服务。

Spark学习技巧

2021-03-05

7100

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态