Spark学习技巧

本公众号主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到hadoop家族。
762 篇文章
654.7K 次阅读
233 人订阅
举报

全部文章

Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

几种常见的 Kafka 集群监控工具

一个功能健全的kafka集群可以处理相当大的数据量,由于消息系统是很多大型应用的基石,因此broker集群在性能上的缺陷,都会引起整个应用栈的各种问题。

19410
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

clickhouse 亿级数据性能测试

最近由于项目需求使用到了 clickhouse 做分析数据库,于是用测试环境做了一个单表 6 亿数据量的性能测试,记录一下测试结果,有做超大数据量分析技术选型需...

12000
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

关于SparkSQL的开窗函数,你应该知道这些!

相信用过MySQL的朋友都知道,MySQL中也有开窗函数的存在。开窗函数的引入是为了既显示聚集前的数据,又显示聚集后的数据。即在每一行的最后一列添加聚合函数的结...

15031
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

Spark DataSource API v2 版本对比 v1有哪些改进?

1. 由于其输入参数包括 DataFrame / SQLContext,因此 DataSource API 兼容性取决于这些上层的 API。

12640
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

硬刚Hive | 4万字基础调优面试小总结

Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL,...

11530
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

浅析Redis分布式集群倾斜问题

对于分布式系统而言,整个集群处理请求的效率和存储容量,往往取决于集群中响应最慢或存储增长最快的节点。所以在系统设计和容量规划时,我们尽量保障集群中各节点的“数据...

24420
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

分布式锁用Redis还是Zookeeper?

系统 A 是一个电商系统,目前是一台机器部署,系统中有一个用户下订单的接口,但是用户下订单之前一定要去检查一下库存,确保库存足够了才会给用户下单。

9020
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

Redis 缓存使用技巧和设计方案

缓存能够有效地加速应用的读写速度,同时也可以降低后端负载,对日常应用的开发至关重要。下面会介绍缓存使用技巧和设计方案,包含如下内容:缓存的收益和成本分析、缓存更...

13110
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

Atlas血缘分析在数据仓库中的实战案例

1.1 执行SQL 1.2 手写的数据地图 1.3 atlas血缘分析 1.4 打标签 1.4.1 CLASSIFICATION分类 1.4.2 GLOSSAR...

40310
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

万字详解 Spark Core 开发调优(建议收藏)

前两天和大家分享了一篇关于 Spark Core 数据倾斜调优 相关的文章,今天继续和大家分享一篇关于 Spark 开发调优的文章,干货文章,建议收藏!

10610
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

知乎用户画像与实时数据架构实践

‍‍‍‍‍‍‍‍知乎业务中,随着各业务线业务的发展,逐渐对用户画像和实时数据这两部分的诉求越来越多。对用户画像方面,期望有更快、更准、更方便的人群筛选工具和方便...

21330
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

数据质量监控框架及解决方案总结

随着业务发展和数据量的增加,大数据应用开发已成为部门应用开发常用的开发方式,由于部门业务特点的关系,spark和hive应用开发在部门内部较为常见。当处理的数据...

18330
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

Flink 源码深度解析-Async IO的实现

在Flink中使用Async I/O的话,需要有一个支持异步请求的客户端,或者以多线程异步的方式来将同步操作转化为异步操作调用;

8710
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

HiveSQL技术原理、优化与面试

编译 SQL 的任务是在上节中介绍的 COMPILER(编译器组件)中完成的。Hive将SQL转化为MapReduce任务,整个编译过程分为六个阶段:

12111
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

一篇并不起眼的Spark面试题

spark是借鉴了Mapreduce,并在其基础上发展起来的,继承了其分布式计算的优点并进行了改进,spark生态更为丰富,功能更为强大,性能更加适用范围广,m...

8910
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

大厂实时数仓建设项目实例

目前各大公司的产品需求和内部决策对于数据实时性的要求越来越迫切,需要实时数仓的能力来赋能。传统离线数仓的数据时效性是 T+1,调度频率以天为单位,无法支撑实时场...

32640
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

Kafka 时间轮(TimingWheel)原理,值得借鉴

在kafka中,有许多请求并不是立即返回,而且处理完一些异步操作或者等待某些条件达成后才返回,这些请求一般都会带有timeout参数,表示如果timeout时间...

16720
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

推荐工程系统架构演进

推荐现在已经成为电商最核心的竞争力,也是电商平台的重要流量入口之一。近年来推荐场景逐渐的多样化,覆盖到各流量入口,几乎所有页面都可以进行商品推荐:首页、详情页、...

11920
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

8个数据分析模型简介

大家在工作中是不是经常要做各种分析,但又常常遇到无从下手,抓不住重点,搞不清关键数据的情况。俗话说“工欲善其事,必先利其器。”一个好用的数据分析模型,能给我们提...

15220
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

2022数据工程师如何避免陷入内卷?

内卷(involution)是近两年流行起来的一个名词,用来指带人类社会在一个发展阶段达到某种确定的形式后,停滞不前或无法转化为另一种高级模式的现象,现在很多人...

13910

扫码关注腾讯云开发者

领取腾讯云代金券