大数据真好玩

LV0
发表了文章

【Spark重点难点】你从未深入理解的RDD和关键角色

之前我们成功完成了Flink重点难点部分的学习了。很多同学可能还没有意识到,你已经把Flink这个框架中最关键的部分掌握了。Flink的重点难点部分就是我列在这...

大数据真好玩
发表了文章

腾讯大数据安全体系管理与实践

大数据已被视为国家基础性战略资源,各行各业的大数据应用正迅猛发展,但随之而来的数据安全问题也日益加剧,有时甚至限制了大数据应用的发展。基于此,无论是国家机关还是...

大数据真好玩
发表了文章

保姆级超详细教程:DolphinScheduler单机(本地)部署及软件运行测试

下载最新版本的后端安装包至服务器部署目录,比如创建 /opt/dolphinscheduler 做为安装部署目录,下载地址:https://dlcdn.apac...

大数据真好玩
发表了文章

Flink重点难点:状态(Checkpoint和Savepoint)容错与两阶段提交

在 Flink 的框架中,进行有状态的计算是 Flink 最重要的特性之一。所谓的状态,其实指的是 Flink 程序的中间计算结果。Flink 支持了不同类型的...

大数据真好玩
发表了文章

Flink重点难点:Flink任务综合调优(Checkpoint/反压/内存)

我们在Flink重点难点:状态(Checkpoint和Savepoint)容错与两阶段提交一文中对Flink的Checkpoint做过详细的介绍。

大数据真好玩
发表了文章

六大方法彻底解决Flink Table & SQL维表Join

随着 Flink Table & SQL的发展,Flink SQL中用于进行维表Join也成为了很多场景的选择。

大数据真好玩
发表了文章

上帝视角Hbase二级索引方案全解析

HBase中的一级索引指数据在写入region时,会根据rowkey进行排序后写入,之后regionserver在加载region时,会自动为当前region的...

大数据真好玩
发表了文章

Apache Iceberg源码分析:数据存储格式

Apache Iceberg作为一款新兴的数据湖解决方案在实现上高度抽象,在存储上能够对接当前主流的HDFS,S3文件系统并且支持多种文件存储格式,例如Parq...

大数据真好玩
发表了文章

SparkSQL并行执行多个Job的探索

Spark是以TaskSetManager为单元来调度任务的。通常情况下,任务队列中只会有一个TaskSetManager,而通过多线程提交多个Job时,则会有...

大数据真好玩
发表了文章

大数据实践:数据指标中心的建设思路

做好业务分析的重点在于数据分析师要有良好的专业素养:一方面要有过硬的专业技能、了解业务;另一方面要能够通过合作和协调,让分析策略可以落地并正向影响业务。这篇文章...

大数据真好玩
发表了文章

万字雄文:从数字资源向数字资产、数字资本的飞跃!

在数字经济时代,大数据的广泛采集和应用对人类的生活方式、城市管理、企业运营实现了全方位、智能化的重构。

大数据真好玩
发表了文章

Kafka常见问题&学习路径&源码阅读小结 | 写在Kafka3.0发布之际

2021年9月21日,随着Kafka3.0的发布,Kafka在「分布式流处理平台」这个目标上的努力进一步得到加强!Kafka不满足于「消息引擎」的定位,正式基于...

大数据真好玩
发表了文章

HBase RowKey与索引设计 |「Hbase2.0常见问题性优化小总结续集」

hbase的内部使用KeyValue的形式存储,其key时rowKey:family:column:logTime,value是其存储的内容。

大数据真好玩
发表了文章

Flink 1.10+之改进的TaskManager内存模型与配置

Flink社区在FLIP-49提出了新版统一的TaskManager内存模型及配置,这也是Flink 1.10版本最主要的改进与优化点之一。根据社区的说法,该p...

大数据真好玩
发表了文章

数据同步工具之FlinkCDC/Canal/Debezium对比

数据准实时复制(CDC)是目前行内实时数据需求大量使用的技术,随着国产化的需求,我们也逐步考虑基于开源产品进行准实时数据同步工具的相关开发,逐步实现对商业产品的...

大数据真好玩
发表了文章

Hive计算引擎大PK,万字长文解析MapRuce、Tez、Spark三大引擎

Hive从2008年始于FaceBook工程师之手,经过10几年的发展至今保持强大的生命力。截止目前Hive已经更新至3.1.x版本,Hive从最开始的为人诟病...

大数据真好玩
发表了文章

Hive重点难点:Hive原理&优化&面试(下)

Map在读取数据时,先将数据拆分成若干数据,并读取到Map方法中被处理。数据在输出的时候,被分成若干分区并写入内存缓存(buffer)中,内存缓存被数据填充到一...

大数据真好玩
发表了文章

Hive重点难点:Hive原理&优化&面试(上)

Hive SQL的执行计划描述SQL实际执行的整体轮廓,通过执行计划能了解SQL程序在转换成相应计算引擎的执行逻辑,掌握了执行逻辑也就能更好地把握程序出现的瓶颈...

大数据真好玩
发表了文章

数据湖YYDS! Flink+IceBerg实时数据湖实践

互联网技术发展的当下,数据是各大公司最宝贵的资源之一已经是不争的事实。收据的收集、存储和分析已经成为科技公司最重要的技术组成部分。大数据领域经过近十年的高速发展...

大数据真好玩
发表了文章

中国优秀架构师是不是出现了严重断层?

背景是这样的:我们在做一款面向B端商家的供应链产品,这个产品行业内有非常强力和成熟的软件公司,他们有受众广阔、市场占有率高、客户满意度高、软件架构很优秀和成熟的...

大数据真好玩

个人简介

个人成就

扫码关注云+社区

领取腾讯云代金券