首页
学习
活动
专区
工具
TVP
发布

大数据成神之路

专注大数据领域的一切技术~
专栏作者
635
文章
1276642
阅读量
315
订阅数
生产环境中的面试问题,实时链路中的Kafka数据发现某字段值错误,怎么办?
首先,我们在做数据开发的过程中涉及到一些基本要素:时效性保障、质量保障、稳定性保障,此外还有敏捷性、可管理性等其他要素。根据公司业务场景和重要性不同,重点也有所侧重。
王知无-import_bigdata
2023-11-14
2410
Flink生产实时监控和预警配置解析
在实际的Flink 项目中,如何观察Flink的性能,如何监控Flink的运行状态,如何设置报警策略?下面简单讲下我的经验吧。
王知无-import_bigdata
2022-06-05
2.3K0
八股必备|Kafka幂等性原理深入解析
在正常情况下,Producer向Broker投递消息,Broker将消息追加写到对应的流(即某一Topic的某一Partition)中,并向Producer返回ACK信号,表示确认收到。
王知无-import_bigdata
2022-04-13
1.8K0
Apache Griffin+Flink+Kafka实现流式数据质量监控实战
本文用的组件包括以下几个,是参考了官方案例,版本可以参考github以及里面的pom文件。本文假定以下环境均已安装好。
王知无-import_bigdata
2022-04-13
1.1K0
Kafka的运维利器-AdminClient
一般情况下,我们都习惯使用kafka-topics.sh脚本来管理主题,但有些时候我们希望将主题管理类的功能集成到公司内部的系统中,打造集管理、监控、运维、告警为一体的生态平台,那么就需要以程序调用API的方式去实现。
王知无-import_bigdata
2021-11-18
1.5K0
Kafka常用监控框架百科全书
Kafka搭建好投入使用后,为了运维更便捷,借助一些管理工具很有必要。Kafka社区似乎一直没有在监控框架方面投入太多的精力,目前Kafka监控方案看似很多,然而并没有一个"大而全"的通用解决方案,各家框架也是各有千秋。很多公司和个人都自行着手开发 Kafka 监控框架,其中并不乏佼佼者。今天我们就来全面地梳理一下主流的监控框架。
王知无-import_bigdata
2021-11-18
6800
数据同步工具之FlinkCDC/Canal/Debezium对比
数据准实时复制(CDC)是目前行内实时数据需求大量使用的技术,随着国产化的需求,我们也逐步考虑基于开源产品进行准实时数据同步工具的相关开发,逐步实现对商业产品的替代。本文把市面上常见的几种开源产品,Canal、Debezium、Flink CDC 从原理和适用做了对比,供大家参考。
王知无-import_bigdata
2021-10-27
7.8K0
我们在学习Kafka的时候,到底在学习什么?
我在之前《Kafka源码阅读的一些小提示》写了一些关于Kafka源码阅读的注意事项。
王知无-import_bigdata
2021-09-22
3120
Kafka源码阅读的一些小提示
阅读源码的重要性不在赘述。现在在很多互联网公司资深技术岗位的招聘要求读过至少一种开源框架的源码。阅读源码的考察也是未来面试的一大重点。
王知无-import_bigdata
2021-09-22
4690
30个Kafka常见错误小集合
原因分析:producer向不存在的topic发送消息,用户可以检查topic是否存在 或者设置auto.create.topics.enable参数
王知无-import_bigdata
2021-09-22
5.5K0
一篇并不起眼的Kafka面试题
为保证producer发送的数据,能可靠的发送到指定的topic,topic的每个partition收到producer发送的数据后,都需要向producer发送ack(acknowledgement确认收到),如果producer收到ack,就会进行下一轮的发送,否则重新发送数据。所以引出ack机制。
王知无-import_bigdata
2021-07-30
5800
4万字长文 | ClickHouse基础&实践&调优全视角解析
Clickhouse 是一个高性能且开源的数据库管理系统,主要用于在线分析处理 (OLAP) 业务。它采用列式存储结构,可使用 SQL 语句实时生成数据分析报告,另外它还支持索引,分布式查询以及近似计算等特性,凭借其优异的表现,ClickHouse 在各大互联网公司均有广泛地应用。
王知无-import_bigdata
2021-07-12
2.4K0
360度无死角 | Pulsar与Kafka对比全解析
本文分别从性能、架构和功能方面比较 Pulsar 和 Kafka 的区别,并且介绍 Pulsar 的用例、支持与社区等。
王知无-import_bigdata
2021-07-12
9.7K0
脱离ZooKeeper依赖的Kafka Controller Quorum(KRaft)机制浅析
相信这几天大家正在被“Kafka要弃用ZooKeeper”的消息刷屏,并且无一例外地将其视为这个老当益壮的消息系统近年来最重大的变革。当然,由于ZooKeeper在Kafka中承担了Controller选举、Broker注册、TopicPartition注册与Leader选举、Consumer/Producer元数据管理和负载均衡等等很多任务,使Kafka完全摆脱ZooKeeper的依赖也不是一朝一夕就能完成的事情。
王知无-import_bigdata
2021-06-01
1.2K0
Kafka 为了避免 Full GC,竟然还在发送端设计了内存池,自己管理内存,太巧妙了
在上一篇文章中,我们讲到了 Kafka 发送消息的八个流程,并且着重讲了 Kafka 封装了一个内存结构,把每个分区的消息封装成批次,缓存到内存里。
王知无-import_bigdata
2021-05-07
8460
Flink在实时在实时计算平台和实时数仓中的企业级应用小结
在过去的这几年时间里,以 Storm、Spark、Flink 为代表的实时计算技术接踵而至。2019 年阿里巴巴内部 Flink 正式开源。整个实时计算领域风起云涌,一些普通的开发者因为业务需要或者个人兴趣开始接触Flink。
王知无-import_bigdata
2021-04-21
1.4K0
Spark Streaming + Canal + Kafka打造Mysql增量数据实时进行监测分析
Spark中的Spark Streaming可以用于实时流项目的开发,实时流项目的数据源除了可以来源于日志、文件、网络端口等,常常也有这种需求,那就是实时分析处理MySQL中的增量数据。
王知无-import_bigdata
2021-04-21
1.3K0
数据湖在大数据典型场景下应用调研个人笔记
数据湖是一种不断演进中、可扩展的大数据存储、处理、分析的基础设施;以数据为导向,实现任意来源、任意速度、任意规模、任意类型数据的全量获取、全量存储、多模式处理与全生命周期管理;并通过与各类外部异构数据源的交互集成,支持各类企业级应用。
王知无-import_bigdata
2021-03-26
1.1K0
生产上的坑才是真的坑 | 盘一盘Flink那些经典线上问题
一个流程中,有两个重要子任务:一是数据迁移,将kafka实时数据落Es,二是将kafka数据做窗口聚合落hbase,两个子任务接的是同一个Topic GroupId。上游 Topic 的 tps 高峰达到5-6w。
王知无-import_bigdata
2021-03-26
4.7K0
FileSystem/JDBC/Kafka - Flink三大Connector实现原理及案例
本文分别讲述了Flink三大Connector:FileSystem Connector、JDBC Connector和Kafka Connector的源码实现和案例代码。
王知无-import_bigdata
2021-03-26
2K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档