首页
学习
活动
专区
工具
TVP
发布

Spark学习技巧

本公众号主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到hadoop家族。
专栏作者
794
文章
1079186
阅读量
246
订阅数
万字Spark性能优化宝典(收藏版)
导读:发现一篇好文,分享给大家。全文分为四个部分,基本涵盖了所有Spark优化的点,面试和实际工作中必备。全文较长,建议收藏后PC端查看或工作中问题troubleshooting。
Spark学习技巧
2023-12-04
140
一文讲透如何做数据分析和指标体系
本文内容基于自己从事支付领域从0到1搭建支付业务数据分析实战经验。如果你对写代码念念不忘,可以看我的历史文章,有很多代码相关的内容。
Spark学习技巧
2023-12-01
1160
详解数据仓库之拉链表(原理、设计以及在Hive中的实现)
最近发现一本好书,读完感觉讲的非常好,首先安利给大家,国内第一本系统讲解数据血缘的书!点赞!
Spark学习技巧
2023-11-13
1720
用户增长常见分析模型
用户增长基本上会涉及生意场上的各行各业,你开个店面希望有更多的客户光顾,你做了个APP希望有更多的用户经常使用,你搭建了个电商平台希望有更多的人下单买东西。
Spark学习技巧
2023-10-07
2150
大数据圈还能混吗?
工作这么多年,浪尖一直从事大数据相关的架构设计,计算框架的二次开发,尤其是实时计算框架,最近两年在搞实时数仓和数据分析,浪尖算是跟着大数据生态成长起来的老人了。
Spark学习技巧
2023-10-07
1500
数据治理之元数据管理的利器——Atlas入门宝典(万字长文)
随着数字化转型的工作推进,数据治理的工作已经被越来越多的公司提上了日程。作为Hadoop生态最紧密的元数据管理与发现工具,Atlas在其中扮演着重要的位置。但是其官方文档不是很丰富,也不够详细。所以整理了这份文档供大家学习使用。
Spark学习技巧
2023-09-18
2970
漫谈数据仓库之拉链表(原理、设计以及在Hive中的实现)
拉链表是针对数据仓库设计中表存储数据的方式而定义的,顾名思义,所谓拉链,就是记录历史。记录一个事物从开始,一直到当前状态的所有变化的信息。
Spark学习技巧
2023-09-07
1480
万字漫游数据仓库模型从入门到放弃
数据模型就是数据组织和存储方法,它强调从业务、数据存取和使用角度合理存储数据。只有将数据有序的组织和存储起来之后,数据才能得到高性能、低成本、高效率、高质量的使用。
Spark学习技巧
2023-09-07
2360
广告流量反作弊风控中的模型应用
商业化广告流量变现,媒体侧和广告主侧的作弊现象严重,损害各方的利益,基于策略和算法模型的业务风控,有效保证各方的利益;算法模型可有效识别策略无法实现的复杂作弊模型,本文首先对广告反作弊进行简介,其次介绍风控系统中常用算法模型,以及实战过程中具体风控算法模型的应用案例。
Spark学习技巧
2023-03-21
2960
60+张PPT,教你如何搭建Spark离线数仓!
📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷
Spark学习技巧
2023-03-21
3620
你只会用 xxl-job?一款更强大、新一代分布式任务调度框架来了,太强大了!
PowerJob是新一代分布式任务调度与计算框架,支持CRON、API、固定频率、固定延迟等调度策略,提供工作流来编排任务解决依赖关系,能让您轻松完成作业的调度与繁杂任务的分布式计算。
Spark学习技巧
2023-03-21
4390
经典的漏斗分析
漏斗分析模型已经广泛应用于用户行为分析类产品,且功能十分强大:它可以评估总体或各个环节的转化情况、促销活动效果;也可以与其他数据分析模型结合进行深度用户行为分析(如多维下钻分析、用户分群、对比分析等),从而找到用户流失的原因,以提升用户量、活跃度、留存率。
Spark学习技巧
2023-03-21
2880
指标波动多大才算是异常?
导读:先举个例子,体温37.4度vs体温36.5度,只有2.5%的波动,可如果有人在测温点被发现体温37.4度,估计马上就被拉走做核酸。为啥?因为人们不是怕2.5%的波动,而是怕新冠!
Spark学习技巧
2023-03-21
4420
数据指标设计的奥妙
就像人走路的时候需要看到前方的道路,产品和运营在做决策前也需要睁开“双眼”。左眼,是数据;右眼,是用研。(哎,别问我为什么不是左眼用研,右眼数据……)
Spark学习技巧
2023-03-21
3350
​网易数帆数据治理演进
导读:本文将分享网易数帆数据治理的发展过程,以及对现代数据治理的概念和理念的理解,提出现代数据治理应该与数据开发和消费很好地衔接,具备开发治理一体化、形成治理的闭环、仓内仓外统一治理和建立数据资产门户等核心特点。
Spark学习技巧
2023-03-21
3740
HiveSQL中的JOIN ON条件,你理解对了吗?
HiveSQL很常用的一个操作就是关联(Join)。Hive为用户提供了多种JOIN类型,可以满足不同的使用场景。但是,对于不同JOIN类型的语义,或许有些人对此不太清晰。简单的问题,往往是细节问题,而这些问题恰恰也是重要的问题。本文将围绕不同的JOIN类型,介绍JOIN的语义,并对每种JOIN类型需要注意的问题进行剖析,希望本文对你有所帮助。
Spark学习技巧
2023-03-21
5050
Java几种常用 JSON 库性能比较,哪家最强?
链接:https://xncoding.com/2018/01/09/java/jsons.html
Spark学习技巧
2023-03-21
3740
更快更稳更易用: Flink 自适应批处理能力演进
Flink 是流批一体计算框架,早些年主要用于流计算场景。近些年随着流批一体概念的推广,越来越多的企业开始使用 Flink 处理批业务。
Spark学习技巧
2023-03-21
4670
DAU下降问题数据分析-牛逼
尽管不同业务形态、以及不同发展阶段的公司,其用户增长模式各有差异,但都可以从拉新策略和促活策略进行分解。
Spark学习技巧
2023-03-21
9390
判断客户价值,用好这3个数据分析模型就足够了!
工作中,很多时候都是要在资源有限的情况下,去最大化的撬动效益。挖掘创造最大价值的用户,给用户分类针对性营销等,就是一种典型的应用。
Spark学习技巧
2023-03-21
3930
点击加载更多
社区活动
有奖征文 | 参与赢机械键盘
限量送向量数据库免费实例+Baichuan2 400万免费tokens!
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品·最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档