大数据成神之路

专注大数据领域的一切技术~
526 篇文章
452.2K 次阅读
235 人订阅

全部文章

王知无-import_bigdata

基于Hive数据仓库的标签画像实战

建立用户画像首先需要建立数据仓库,用于存储用户标签数据。Hive是基于Hadoop的数据仓库工具,依赖于HDFS存储数据,提供的SQL语言可以查询存储在HDFS...

13930
王知无-import_bigdata

Kafka的运维利器-AdminClient

一般情况下,我们都习惯使用kafka-topics.sh脚本来管理主题,但有些时候我们希望将主题管理类的功能集成到公司内部的系统中,打造集管理、监控、运维、告警...

9130
王知无-import_bigdata

Kafka常用监控框架百科全书

Kafka搭建好投入使用后,为了运维更便捷,借助一些管理工具很有必要。Kafka社区似乎一直没有在监控框架方面投入太多的精力,目前Kafka监控方案看似很多,然...

11130
王知无-import_bigdata

Flink CDC 2.0 数据处理流程全面解析

8月份 FlinkCDC 发布2.0.0版本,相较于1.0版本,在全量读取阶段支持分布式读取、支持checkpoint,且在全量 + 增量读取的过程在不锁表的情...

9920
王知无-import_bigdata

Hive计算引擎大PK,万字长文解析MapRuce、Tez、Spark三大引擎

Hive从2008年始于FaceBook工程师之手,经过10几年的发展至今保持强大的生命力。截止目前Hive已经更新至3.1.x版本,Hive从最开始的为人诟病...

10610
王知无-import_bigdata

数据同步工具之FlinkCDC/Canal/Debezium对比

数据准实时复制(CDC)是目前行内实时数据需求大量使用的技术,随着国产化的需求,我们也逐步考虑基于开源产品进行准实时数据同步工具的相关开发,逐步实现对商业产品的...

29760
王知无-import_bigdata

Flink SQL高效Top-N方案的实现原理

Top-N是我们应用Flink进行业务开发时的常见场景,传统的DataStream API已经有了非常成熟的实现方案,如果换成Flink SQL,又该怎样操作?...

10230
王知无-import_bigdata

大数据之Hadoop企业级生产调优手册(下)

注:演示纠删码和异构存储需要一共 5台虚拟机。尽量拿另外一套集群。提前准备 5台服务器的集群。

9710
王知无-import_bigdata

中国优秀的架构师是不是出现了严重断层?

背景是这样的:我们在做一款面向B端商家的供应链产品,这个产品行业内有非常强力和成熟的软件公司,他们有受众广阔、市场占有率高、客户满意度高、软件架构很优秀和成熟的...

29990
王知无-import_bigdata

昨天的一个问题及答案(关键字Gzip、MapReduce、Spark)

OK,我们知道gzip不可分割了。那么一个10G的gzip文件在HDFS是怎么存储的呢?

9140
王知无-import_bigdata

工程师的思维转变

我之前写过一个《早点建立自己的知识体系》,现在看来原来我只在第一层,更上一层的应该是思维体系的建立。

9910
王知无-import_bigdata

数据湖YYDS! Flink+IceBerg实时数据湖实践

互联网技术发展的当下,数据是各大公司最宝贵的资源之一已经是不争的事实。收据的收集、存储和分析已经成为科技公司最重要的技术组成部分。大数据领域经过近十年的高速发展...

32510
王知无-import_bigdata

打造大数据平台底层计算存储引擎 | Apache孵化器迎来Linkis!

微众银行开源项目Linkis正式通过Apache软件基金会(ASF)的投票表决,全票通过进入ASF孵化器!

18220
王知无-import_bigdata

我说Java基础重要,你不信?来试试这几个问题

代码生成技术广泛应用于现代的数据库系统中。代码生成是将用户输入的表达式、查询、存储过程等现场编译成二进制代码再执行,相比解释执行的方式,运行效率要高很多。尤其是...

12630
王知无-import_bigdata

Flink重点难点:Flink Table&SQL必知必会(二)

介绍了 Flink Table & SQL的一些核心概念,本部分将介绍 Flink 中窗口和函数。

9810
王知无-import_bigdata

Flink重点难点:Flink Table&SQL必知必会(一)

Flink本身是批流统一的处理框架,所以Table API和SQL,就是批流统一的上层处理API。目前功能尚未完善,处于活跃的开发阶段。

12110
王知无-import_bigdata

Flink重点难点:内存模型与内存结构

Java 虚拟机在执行Java程序的过程中会把它在主存中管理的内存部分划分成多个区域,每个区域存放不同类型的数据。下图所示为java虚拟机运行的时候,主要的内存...

19130
王知无-import_bigdata

Flink重点难点:维表关联理论和Join实战

数据流操作的另一个常见需求是对两条数据流中的事件进行联结(connect)或Join。Flink DataStream API中内置有两个可以根据时间条件对数据...

25120
王知无-import_bigdata

一网打尽Flink中的时间、窗口和流Join

首先,我们会学习如何定义时间属性,时间戳和水位线。然后我们将会学习底层操作process function,它可以让我们访问时间戳和水位线,以及注册定时器事件。...

15130
王知无-import_bigdata

他来了他来了,Hadoop序列化和切片机制了解一下?

一个超大文件在HDFS上存储时,是以多个Block存储在不同的节点上,比如一个512M的文件,HDFS默认一个Block为128M,那么1G的文件分成4个Blo...

9810

扫码关注云+社区

领取腾讯云代金券