首页
学习
活动
专区
工具
TVP
发布

Spark学习技巧

本公众号主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到hadoop家族。
专栏作者
800
文章
1195319
阅读量
247
订阅数
Flink在涂鸦防护体系中的应用
随着互联网的快速发展,数据量呈爆炸性增长,安全分析领域面临着前所未有的挑战。传统的安全分析方法在处理海量数据时显得力不从心,无法满足实时、高效的需求。为了解决这一问题,Flink作为一种实时数据处理框架,逐渐在安全分析领域崭露头角。本文将基于涂鸦SOC平台建设经验浅谈Flink在安全分析领域的应用。
Spark学习技巧
2024-02-22
560
4000字读懂实时数仓的过去现在和未来(建议收藏)
1991年,比尔·恩门(Bill Inmon)出版了他的第一本关于数据仓库的书《Building the Data Warehouse》,标志着数据仓库概念的确立。
Spark学习技巧
2024-02-01
2000
深入讲解四种数仓建模理论方法
数据仓库的建设的最重要的核心核心之一就是数仓模型的设计和构建,这个决定了数仓的复用和性能,本文将介绍四种建模的理论:维度建模、关系建模、Data Vault建模、Anchor模型建模,文后也介绍几种常见的数仓建模工具。
Spark学习技巧
2024-01-26
2600
Spark+Celeborn:更快,更稳,更弹性
Apache Spark 是广为流行的大数据处理引擎,它有很多使用场景: Spark SQL、批处理、流处理、MLLIB、GraphX 等。在所有组件下是统一的 RDD 抽象,RDD 血缘通过两种依赖关系描述,窄依赖和宽依赖。其中宽依赖是支撑复杂算子(Join, Agg 等)的关键,而宽依赖实现机制就是 Shuffle。
Spark学习技巧
2024-01-22
1710
12条SQL不起眼的数仓调优技巧
本文是作者本人做数仓调优时,所经常使用的SQL调优技巧,这些“技巧”也是经过日常不断摸索、问题排查以及网络检索并且经过本人在线上大规模使用过的,对于下面这12条(不算多,但特别有用)调优小“技巧”,希望能帮助阅读本文的同学能够在日常编写分析语句时,提升任务执行的效率。
Spark学习技巧
2024-01-15
2130
FlinkCEP - Flink的复杂事件处理
FlinkCEP是在Flink上层实现的复杂事件处理库。 它可以让你在无限事件流中检测出特定的事件模型,有机会掌握数据中重要的那部分。
Spark学习技巧
2023-12-05
1680
万字Spark性能优化宝典(收藏版)
导读:发现一篇好文,分享给大家。全文分为四个部分,基本涵盖了所有Spark优化的点,面试和实际工作中必备。全文较长,建议收藏后PC端查看或工作中问题troubleshooting。
Spark学习技巧
2023-12-04
4230
一文讲透如何做数据分析和指标体系
本文内容基于自己从事支付领域从0到1搭建支付业务数据分析实战经验。如果你对写代码念念不忘,可以看我的历史文章,有很多代码相关的内容。
Spark学习技巧
2023-12-01
3620
详解数据仓库之拉链表(原理、设计以及在Hive中的实现)
最近发现一本好书,读完感觉讲的非常好,首先安利给大家,国内第一本系统讲解数据血缘的书!点赞!
Spark学习技巧
2023-11-13
3010
用户增长常见分析模型
用户增长基本上会涉及生意场上的各行各业,你开个店面希望有更多的客户光顾,你做了个APP希望有更多的用户经常使用,你搭建了个电商平台希望有更多的人下单买东西。
Spark学习技巧
2023-10-07
4050
大数据圈还能混吗?
工作这么多年,浪尖一直从事大数据相关的架构设计,计算框架的二次开发,尤其是实时计算框架,最近两年在搞实时数仓和数据分析,浪尖算是跟着大数据生态成长起来的老人了。
Spark学习技巧
2023-10-07
2030
数据治理之元数据管理的利器——Atlas入门宝典(万字长文)
随着数字化转型的工作推进,数据治理的工作已经被越来越多的公司提上了日程。作为Hadoop生态最紧密的元数据管理与发现工具,Atlas在其中扮演着重要的位置。但是其官方文档不是很丰富,也不够详细。所以整理了这份文档供大家学习使用。
Spark学习技巧
2023-09-18
7340
漫谈数据仓库之拉链表(原理、设计以及在Hive中的实现)
拉链表是针对数据仓库设计中表存储数据的方式而定义的,顾名思义,所谓拉链,就是记录历史。记录一个事物从开始,一直到当前状态的所有变化的信息。
Spark学习技巧
2023-09-07
2370
万字漫游数据仓库模型从入门到放弃
数据模型就是数据组织和存储方法,它强调从业务、数据存取和使用角度合理存储数据。只有将数据有序的组织和存储起来之后,数据才能得到高性能、低成本、高效率、高质量的使用。
Spark学习技巧
2023-09-07
4800
广告流量反作弊风控中的模型应用
商业化广告流量变现,媒体侧和广告主侧的作弊现象严重,损害各方的利益,基于策略和算法模型的业务风控,有效保证各方的利益;算法模型可有效识别策略无法实现的复杂作弊模型,本文首先对广告反作弊进行简介,其次介绍风控系统中常用算法模型,以及实战过程中具体风控算法模型的应用案例。
Spark学习技巧
2023-03-21
4480
60+张PPT,教你如何搭建Spark离线数仓!
📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷
Spark学习技巧
2023-03-21
6500
你只会用 xxl-job?一款更强大、新一代分布式任务调度框架来了,太强大了!
PowerJob是新一代分布式任务调度与计算框架,支持CRON、API、固定频率、固定延迟等调度策略,提供工作流来编排任务解决依赖关系,能让您轻松完成作业的调度与繁杂任务的分布式计算。
Spark学习技巧
2023-03-21
7090
经典的漏斗分析
漏斗分析模型已经广泛应用于用户行为分析类产品,且功能十分强大:它可以评估总体或各个环节的转化情况、促销活动效果;也可以与其他数据分析模型结合进行深度用户行为分析(如多维下钻分析、用户分群、对比分析等),从而找到用户流失的原因,以提升用户量、活跃度、留存率。
Spark学习技巧
2023-03-21
4550
指标波动多大才算是异常?
导读:先举个例子,体温37.4度vs体温36.5度,只有2.5%的波动,可如果有人在测温点被发现体温37.4度,估计马上就被拉走做核酸。为啥?因为人们不是怕2.5%的波动,而是怕新冠!
Spark学习技巧
2023-03-21
5930
数据指标设计的奥妙
就像人走路的时候需要看到前方的道路,产品和运营在做决策前也需要睁开“双眼”。左眼,是数据;右眼,是用研。(哎,别问我为什么不是左眼用研,右眼数据……)
Spark学习技巧
2023-03-21
4690
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
热点技术征文第五期
新风口Sora来袭,普通人该如何把握机会?
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品·最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档