王知无

LV1
发表了文章

基于Flink快速开发实时TopN程序最简单的思路

TopN 是统计报表和大屏非常常见的功能,主要用来实时计算排行榜。流式的TopN可以使业务方在内存中按照某个统计指标(如出现次数)计算排名并快速出发出更新后的排...

王知无
发表了文章

Hive SQL经典优化案例

1.3 优化思路:既然将要执行的查询是按照 dt, strategy, ab_group, source 这4个字段分组, 那么在建表的时候,就按这四个字段中的...

王知无
发表了文章

MySQL千万大表优化实践

前段时间笔者遇到一个复杂的慢查询,今天有空便进行了整理,以便日后回顾。举一个相似的业务场景的例子。以文章评论为例,查询20191201~20191231日期间发...

王知无
发表了文章

Flink CEP的基石:NFA-b自动机原理简介

Flink的复杂事件处理(complex event processing, CEP)库能够在无界数据流中通过匹配定义好的事件模式来发现一系列事件之间的关联规律...

王知无
发表了文章

MySQL慢查询优化 | 联结原理

前段时间笔者开发某个项目遇到了MySQL性能问题,每张表的数据量都在五千万以上,个别表数据量甚至在一个亿以上,在开发的过程中遇到了非常多的数据库性能优化难点,笔...

王知无
发表了文章

Kafka运维小贴士 | Kafka 消息监控

笔者经常遇到一些无法优化的慢查询,面对这样的慢查询,笔者会将其进行预先计算存储到mongodb或者elasticsearch中。这个业务场景需要将mysql的b...

王知无
发表了文章

Kafka重要知识点之消费组概念

在kafka中,某些Topic的主题拥有数百万甚至数千万的消息量,如果仅仅靠个消费者进程消费,那么消费速度会非常慢,所以我们需要使用使用kafka提供的消费组功...

王知无
发表了文章

Kafka组消费之Rebalance机制

《Kafka重要知识点之消费组概念》讲到了kafka的消费组相关的概念,消费组有多个消费者,消费组在消费一个Topic的时候,kafka为了保证消息消费不重不漏...

王知无
发表了文章

Elasticsearch重要知识点 | 选举流程详解

ES选举最核心的是Elasticsearch的选举流程,笔者研究了Elasticsearch选举源代码,同时看了很多文章之后,梳理出了选举过程中各个流程要点,下...

王知无
发表了文章

Spark SQL快速入门系列之Hive

hive on spark(版本兼容) 官网https://cwiki.apache.org/confluence/display/Hive/Hive+on+S...

王知无
发表了文章

Hadoop支持Lzo压缩配置及案例

1)hadoop本身并不支持lzo压缩,故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译,编译...

王知无
发表了文章

Apache Hudi 架构设计和基本概念

Apache Hudi是一个Data Lakes的开源方案,Hudi是Hadoop Updates and Incrementals的简写,它是由Uber开发并...

王知无
发表了文章

斗转星移 | 三万字总结Kafka各个版本差异

Kafka 2.0.0引入了线程协议的变化。通过遵循下面建议的滚动升级计划,您可以保证在升级期间不会出现停机。但是,请在升级之前查看2.0.0中的重大更改。

王知无
发表了文章

大数据入门:Spark+Kudu的广告业务项目实战笔记(二)

统计省份、城市数量分布情况,按照provincename与cityname分组统计

王知无
发表了文章

Spark+Kudu的广告业务项目实战笔记(一)

本项目需要实现:将广告数据的json文件放置在HDFS上,并利用spark进行ETL操作、分析操作,之后存储在kudu上,最后设定每天凌晨三点自动执行广告数据的...

王知无
发表了文章

【从0开始の全记录】Flume+Kafka+Spark+Spring Boot 统计网页访问量项目

新建Scala文件——WebStatStreamingApp.scala,首先使用Direct模式连通Kafka:

王知无
发表了文章

数据模型⽆法复⽤,归根结底还是设计问题

如果把指标⽐喻成⼀棵树上的果实,那模型就是这棵⼤树的躯⼲,想让果实结得好,必须让树⼲变得粗壮。真实场景举例:

王知无
发表了文章

Flink CEP 原理和案例详解

(1)定义 复合事件处理(Complex Event Processing,CEP)是一种基于动态环境中事件流的分析技术,事件在这里通常是有意义的状态变化,通过...

王知无
发表了文章

HDFS应用场景、原理、基本架构及使用方法

如果一个文件大小为10K,则1亿个文件大小仅为1TB(但要消耗掉NameNode 20GB内存)

王知无
发表了文章

ELK+FileBeat+Kafka分布式系统搭建图文教程

filebeat收集需要提取的日志文件,将日志文件转存到kafka集群中,logstash处理kafka日志,格式化处理,并将日志输出到elasticsearc...

王知无

个人简介

个人成就

扫码关注云+社区

领取腾讯云代金券