首页
学习
活动
专区
工具
TVP
发布

Spark学习技巧

本公众号主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到hadoop家族。
专栏成员
810
文章
1301711
阅读量
248
订阅数
Kafka 3.3 使用 KRaft 共识协议替代 ZooKeeper
Apache 软件基金会发布了包含许多新特性和改进的 Kafka 3.3.1。这是第一个标志着可以在生产环境中使用KRaft(Kafka Raft)共识协议的版本。在几年的开发过程中,它先是在 Kafka 2.8 早期访问版本中发布,然后又在 Kafka 3.0 预览版本中发布。
Spark学习技巧
2024-04-12
7750
Kafka各组件架构简介
每个kafka server称为一个Broker,多个borker组成 Kafka Cluster。
Spark学习技巧
2023-03-21
1.2K0
Flink+Clickhouse在广投集团实时数仓的最佳实践
由于历史原因,大型集团企业往往多个帐套系统共存,包括国内知名ERP厂商浪潮、用友、金蝶、速达所提供的财务系统,集团财务共享中心的财务人员在核对财务凭证数据时经常需要跨多个系统查询且每个系统使用方式不一,同时因为系统累计数据庞大,制单和查询操作经常出现卡顿,工作效率非常低。
Spark学习技巧
2023-03-21
8500
藏在 17 张图里的 Kafka
3.2 后端的服务从消息队列里面获取到请求,完成后续的秒杀处理流程。然后再给用户返回结果。
Spark学习技巧
2023-03-21
3280
几种常见的 Kafka 集群监控工具
一个功能健全的kafka集群可以处理相当大的数据量,由于消息系统是很多大型应用的基石,因此broker集群在性能上的缺陷,都会引起整个应用栈的各种问题。
Spark学习技巧
2022-06-09
1.9K0
Kafka 时间轮(TimingWheel)原理,值得借鉴
在kafka中,有许多请求并不是立即返回,而且处理完一些异步操作或者等待某些条件达成后才返回,这些请求一般都会带有timeout参数,表示如果timeout时间后服务端还不满足返回的条件,就判定此次请求为超时,这时候kafka同样要返回超时的响应给客户端,这样客户端才知道此次请求超时了。比如ack=-1的producer请求,就需要等待所有的isr备份完成了才可以返回给客户端,或者到达timeout时间了返回超时响应给客户端。
Spark学习技巧
2022-03-15
1.8K0
Kafka 3.0重磅发布,弃用 Java 8 的支持!
Kafka 具有四个核心 API,借助这些 API,Kafka 可以用于以下两大类应用:
Spark学习技巧
2022-01-13
2.2K0
Kafka面试题系列之进阶篇
__consumer_offsets:作用是保存 Kafka 消费者的位移信息 __transaction_state:用来存储事务日志消息
Spark学习技巧
2022-01-13
5480
Loki 日志系统详解
最近,在对公司容器云的日志方案进行设计的时候,发现主流的ELK或者EFK比较重,再加上现阶段对于ES复杂的搜索功能很多都用不上最终选择了Grafana开源的Loki日志系统,下面介绍下Loki的背景。
Spark学习技巧
2022-01-13
2.7K0
电商供应链数仓平台该如何建设?哪些点需要注意?
导读:随着蜀海供应链业务的发展,供应链中各个环节角色的工作人员利用数据对业务进行增长分析的需求越来越迫切。在过去大数据分析平台架构1.0的实践中,存在数据生产链路太长,架构太复杂,开发运维成本都很高,之前的团队对这个架构的驾驭能力不足,数据冗余,对业务的适应能力较弱和不能快速的响应业务各种数据需求等诸多问题,基于这种问题,我们通过引入Apache Doris引擎优化生产方案,实现蜀海供应链大数据数仓的升级,在数据开发上跑通了一套完整的流程,使我们数据需求的日常迭代更加迅速和开发效率的提升,同时也解决了我们在1.0架构中存在的诸多问题。
Spark学习技巧
2022-01-12
8920
Kafka Connect | 无缝结合Kafka构建高效ETL方案
Kafka connect是Confluent公司(当时开发出Apache Kafka的核心团队成员出来创立的新公司)开发的confluent platform的核心功能。可以很简单的快速定义 connectors 将大量数据从 Kafka 移入和移出. Kafka Connect 可以摄取数据库数据或者收集应用程序的 metrics 存储到 Kafka topics,使得数据可以用于低延迟的流处理。一个导出的 job 可以将来自 Kafka topic 的数据传输到二级存储,用于系统查询或者批量进行离线分析。
Spark学习技巧
2021-08-25
1.2K0
Kafka 原理以及分区分配策略剖析
Apache Kafka 是一个分布式的流处理平台(分布式的基于发布/订阅模式的消息队列【Message Queue】)。
Spark学习技巧
2021-08-24
3800
kafka存储结构以及Log清理机制
如上图所示、kafka 中消息是以主题 topic 为基本单位进行归类的,这里的 topic 是逻辑上的概念,实际上在磁盘存储是根据分区存储的,每个主题可以分为多个分区、分区的数量可以在主题创建的时候进行指定。例如下面 kafka 命令创建了一个 topic 为 test 的主题、该主题下有 4 个分区、每个分区有两个副本保证高可用。
Spark学习技巧
2021-07-29
7380
实战 | flink sql 与微博热搜的碰撞!!!
根据微博目前站内词条消费情况,计算 top 50 消费热度词条,每分钟更新一次,并且按照列表展现给用户。
Spark学习技巧
2021-07-27
8900
如何使用 Kafka、MongoDB 和 Maxwell’s Daemon 构建 SQL 数据库的审计系统
审计日志系统有很多应用场景,而不仅仅是存储用于审计目的的数据。除了合规性和安全性的目的之外,它还能够被市场营销团队使用,以便于锁定目标用户,也可以用来生成重要的告警。
Spark学习技巧
2021-03-11
1.1K0
快手基于 Flink 的持续优化与实践
摘要:本文由快手实时计算负责人董亭亭分享,主要介绍快手基于 Flink 的持续优化与实践的介绍。内容包括:
Spark学习技巧
2021-03-11
1K0
kafka面试总结
转自:https://www.cnblogs.com/threecha/p/13737421.html
Spark学习技巧
2021-03-05
7160
java实操|mysql数据增量同步到kafka
生产中由于历史原因web后端,mysql集群,kafka集群(或者其它消息队列)会存在一下三种结构。
Spark学习技巧
2021-03-05
2.3K0
Kafka 集群在马蜂窝大数据平台的优化与应用扩展
Kafka 是当下热门的消息队列中间件,它可以实时地处理海量数据,具备高吞吐、低延时等特性及可靠的消息异步传递机制,可以很好地解决不同系统间数据的交流和传递问题。
Spark学习技巧
2021-03-05
5210
Apache Doris : 一个开源 MPP 数据库的架构与实践
Doris 是分布式、面向交互式查询的分布式数据库,主要部分是 SQL,内部用到 MPP 技术。
Spark学习技巧
2021-03-05
9.5K0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档