大数据成神之路

专注大数据领域的一切技术~
379 篇文章
134 人订阅

全部文章

王知无

Spark SQL快速入门系列之Hive

hive on spark(版本兼容) 官网https://cwiki.apache.org/confluence/display/Hive/Hive+on+S...

8310
王知无

Hadoop支持Lzo压缩配置及案例

1)hadoop本身并不支持lzo压缩,故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译,编译...

5910
王知无

Apache Hudi 架构设计和基本概念

Apache Hudi是一个Data Lakes的开源方案,Hudi是Hadoop Updates and Incrementals的简写,它是由Uber开发并...

8820
王知无

斗转星移 | 三万字总结Kafka各个版本差异

Kafka 2.0.0引入了线程协议的变化。通过遵循下面建议的滚动升级计划,您可以保证在升级期间不会出现停机。但是,请在升级之前查看2.0.0中的重大更改。

7431
王知无

大数据入门:Spark+Kudu的广告业务项目实战笔记(二)

统计省份、城市数量分布情况,按照provincename与cityname分组统计

6930
王知无

Spark+Kudu的广告业务项目实战笔记(一)

本项目需要实现:将广告数据的json文件放置在HDFS上,并利用spark进行ETL操作、分析操作,之后存储在kudu上,最后设定每天凌晨三点自动执行广告数据的...

7920
王知无

【从0开始の全记录】Flume+Kafka+Spark+Spring Boot 统计网页访问量项目

新建Scala文件——WebStatStreamingApp.scala,首先使用Direct模式连通Kafka:

8910
王知无

数据模型⽆法复⽤,归根结底还是设计问题

如果把指标⽐喻成⼀棵树上的果实,那模型就是这棵⼤树的躯⼲,想让果实结得好,必须让树⼲变得粗壮。真实场景举例:

13670
王知无

Flink CEP 原理和案例详解

(1)定义 复合事件处理(Complex Event Processing,CEP)是一种基于动态环境中事件流的分析技术,事件在这里通常是有意义的状态变化,通过...

9420
王知无

HDFS应用场景、原理、基本架构及使用方法

如果一个文件大小为10K,则1亿个文件大小仅为1TB(但要消耗掉NameNode 20GB内存)

7620
王知无

ELK+FileBeat+Kafka分布式系统搭建图文教程

filebeat收集需要提取的日志文件,将日志文件转存到kafka集群中,logstash处理kafka日志,格式化处理,并将日志输出到elasticsearc...

11840
王知无

数据湖 | 一文读懂Data Lake的概念、特征、架构与案例

本文包括七个小节:1、什么是数据湖;2、数据湖的基本特征;3、数据湖基本架构;4、各厂商的数据湖解决方案;5、典型的数据湖应用场景;6、数据湖建设的基本过程;7...

14121
王知无

基于实际业务场景下的Flume部署

这时候在kafka就能看到用户点击行为,也正是nginx记录的内容 不断点击,kafka模拟消费端就能不断看到消息进来。

11440
王知无

实时数仓链路分享:kafka =>SparkStreaming=>kudu集成kerberos

本文档主要介绍在cdh集成kerberos情况下,sparkstreaming怎么消费kafka数据,并存储在kudu里面

9030
王知无

大数据量下的集合过滤—Bloom Filter

如果想判断一个元素是不是在一个集合里,一般想到的是将集合中所有元素保存起来,然后通过比较确定。链表、树、散列表(又叫哈希表,Hash table)等等数据结构都...

5510
王知无

网站日志实时分析之Flink处理实时热门和PVUV统计

12440
王知无

利用InfluxDB+Grafana搭建Flink on YARN作业监控大屏

虽然笔者之前写过基于Prometheus PushGateway搭建Flink监控的过程,但是在我们的生产环境中,使用的是InfluxDB。InfluxDB是一...

11630
王知无

Flink 参数配置和常见参数调优

ack 数据源是否需要kafka得到确认。all表示需要收到所有ISR节点的确认信息,1表示只需要收到kafka leader的确认信息,0表示不需要任何确认信...

9710
王知无

Flink 自定义触发器实现带超时时间的 CountWindow

Flink 的 window 有两个基本款,TimeWindow 和 CountWindow。 TimeWindow 是到时间就触发窗口,CountWindow...

11830
王知无

Spark Kafka 基于Direct自己管理offset

在Spark Streaming中,目前官方推荐的方式是createDirectStream方式,但是这种方式就需要我们自己去管理offset。目前的资料大部分...

7421

扫码关注云+社区

领取腾讯云代金券