Spark学习技巧

LV1
发表了文章

几种常见的 Kafka 集群监控工具

一个功能健全的kafka集群可以处理相当大的数据量,由于消息系统是很多大型应用的基石,因此broker集群在性能上的缺陷,都会引起整个应用栈的各种问题。

Spark学习技巧
发表了文章

clickhouse 亿级数据性能测试

最近由于项目需求使用到了 clickhouse 做分析数据库,于是用测试环境做了一个单表 6 亿数据量的性能测试,记录一下测试结果,有做超大数据量分析技术选型需...

Spark学习技巧
发表了文章

关于SparkSQL的开窗函数,你应该知道这些!

相信用过MySQL的朋友都知道,MySQL中也有开窗函数的存在。开窗函数的引入是为了既显示聚集前的数据,又显示聚集后的数据。即在每一行的最后一列添加聚合函数的结...

Spark学习技巧
发表了文章

Spark DataSource API v2 版本对比 v1有哪些改进?

1. 由于其输入参数包括 DataFrame / SQLContext,因此 DataSource API 兼容性取决于这些上层的 API。

Spark学习技巧
发表了文章

硬刚Hive | 4万字基础调优面试小总结

Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL,...

Spark学习技巧
发表了文章

浅析Redis分布式集群倾斜问题

对于分布式系统而言,整个集群处理请求的效率和存储容量,往往取决于集群中响应最慢或存储增长最快的节点。所以在系统设计和容量规划时,我们尽量保障集群中各节点的“数据...

Spark学习技巧
发表了文章

分布式锁用Redis还是Zookeeper?

系统 A 是一个电商系统,目前是一台机器部署,系统中有一个用户下订单的接口,但是用户下订单之前一定要去检查一下库存,确保库存足够了才会给用户下单。

Spark学习技巧
发表了文章

Redis 缓存使用技巧和设计方案

缓存能够有效地加速应用的读写速度,同时也可以降低后端负载,对日常应用的开发至关重要。下面会介绍缓存使用技巧和设计方案,包含如下内容:缓存的收益和成本分析、缓存更...

Spark学习技巧
发表了文章

Atlas血缘分析在数据仓库中的实战案例

1.1 执行SQL 1.2 手写的数据地图 1.3 atlas血缘分析 1.4 打标签 1.4.1 CLASSIFICATION分类 1.4.2 GLOSSAR...

Spark学习技巧
发表了文章

万字详解 Spark Core 开发调优(建议收藏)

前两天和大家分享了一篇关于 Spark Core 数据倾斜调优 相关的文章,今天继续和大家分享一篇关于 Spark 开发调优的文章,干货文章,建议收藏!

Spark学习技巧
发表了文章

知乎用户画像与实时数据架构实践

‍‍‍‍‍‍‍‍知乎业务中,随着各业务线业务的发展,逐渐对用户画像和实时数据这两部分的诉求越来越多。对用户画像方面,期望有更快、更准、更方便的人群筛选工具和方便...

Spark学习技巧
发表了文章

数据质量监控框架及解决方案总结

随着业务发展和数据量的增加,大数据应用开发已成为部门应用开发常用的开发方式,由于部门业务特点的关系,spark和hive应用开发在部门内部较为常见。当处理的数据...

Spark学习技巧
发表了文章

Flink 源码深度解析-Async IO的实现

在Flink中使用Async I/O的话,需要有一个支持异步请求的客户端,或者以多线程异步的方式来将同步操作转化为异步操作调用;

Spark学习技巧
发表了文章

HiveSQL技术原理、优化与面试

编译 SQL 的任务是在上节中介绍的 COMPILER(编译器组件)中完成的。Hive将SQL转化为MapReduce任务,整个编译过程分为六个阶段:

Spark学习技巧
发表了文章

一篇并不起眼的Spark面试题

spark是借鉴了Mapreduce,并在其基础上发展起来的,继承了其分布式计算的优点并进行了改进,spark生态更为丰富,功能更为强大,性能更加适用范围广,m...

Spark学习技巧
发表了文章

大厂实时数仓建设项目实例

目前各大公司的产品需求和内部决策对于数据实时性的要求越来越迫切,需要实时数仓的能力来赋能。传统离线数仓的数据时效性是 T+1,调度频率以天为单位,无法支撑实时场...

Spark学习技巧
发表了文章

Kafka 时间轮(TimingWheel)原理,值得借鉴

在kafka中,有许多请求并不是立即返回,而且处理完一些异步操作或者等待某些条件达成后才返回,这些请求一般都会带有timeout参数,表示如果timeout时间...

Spark学习技巧
发表了文章

推荐工程系统架构演进

推荐现在已经成为电商最核心的竞争力,也是电商平台的重要流量入口之一。近年来推荐场景逐渐的多样化,覆盖到各流量入口,几乎所有页面都可以进行商品推荐:首页、详情页、...

Spark学习技巧
发表了文章

8个数据分析模型简介

大家在工作中是不是经常要做各种分析,但又常常遇到无从下手,抓不住重点,搞不清关键数据的情况。俗话说“工欲善其事,必先利其器。”一个好用的数据分析模型,能给我们提...

Spark学习技巧
发表了文章

2022数据工程师如何避免陷入内卷?

内卷(involution)是近两年流行起来的一个名词,用来指带人类社会在一个发展阶段达到某种确定的形式后,停滞不前或无法转化为另一种高级模式的现象,现在很多人...

Spark学习技巧

个人简介

个人成就

扫码关注腾讯云开发者

领取腾讯云代金券