首页
学习
活动
专区
工具
TVP
发布

Spark学习技巧

本公众号主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到hadoop家族。
专栏作者
810
文章
1222202
阅读量
247
订阅数
大数据圈还能混吗?
工作这么多年,浪尖一直从事大数据相关的架构设计,计算框架的二次开发,尤其是实时计算框架,最近两年在搞实时数仓和数据分析,浪尖算是跟着大数据生态成长起来的老人了。
Spark学习技巧
2023-10-07
2130
万字详解 Spark Core 开发调优(建议收藏)
前两天和大家分享了一篇关于 Spark Core 数据倾斜调优 相关的文章,今天继续和大家分享一篇关于 Spark 开发调优的文章,干货文章,建议收藏!
Spark学习技巧
2022-04-18
4370
数据质量监控框架及解决方案总结
随着业务发展和数据量的增加,大数据应用开发已成为部门应用开发常用的开发方式,由于部门业务特点的关系,spark和hive应用开发在部门内部较为常见。当处理的数据量达到一定量级和系统的复杂度上升时,数据的唯一性、完整性、一致性等等校验就开始受到关注,而通常做法是根据业务特点,额外开发job如报表或者检查任务,这样会比较费时费力。
Spark学习技巧
2022-04-18
1.2K0
一篇并不起眼的Spark面试题
spark是借鉴了Mapreduce,并在其基础上发展起来的,继承了其分布式计算的优点并进行了改进,spark生态更为丰富,功能更为强大,性能更加适用范围广,mapreduce更简单,稳定性好。主要区别
Spark学习技巧
2022-04-18
8630
2022数据工程师如何避免陷入内卷?
内卷(involution)是近两年流行起来的一个名词,用来指带人类社会在一个发展阶段达到某种确定的形式后,停滞不前或无法转化为另一种高级模式的现象,现在很多人用它来指代非理性的内部竞争或“被自愿”竞争。
Spark学习技巧
2022-03-15
2730
伴鱼事件分析平台设计
在伴鱼,服务器每天收集的用户行为日志达到上亿条,我们希望能够充分利用这些日志,了解用户行为模式,回答以下问题:
Spark学习技巧
2022-03-15
4160
如何提高Flink大规模作业的调度器性能
在 Flink 1.12 中调度大规模作业时,需要大量的时间来初始化作业和部署任务。调度器还需要大量的堆内存来存储执行拓扑和主机临时部署描述符。例如,对于一个拓扑结构的作业,该作业包含两个与全对全边相连且并行度为 10k 的作业(这意味着有 10k 个源任务和 10k 个接收器任务,并且每个源任务都连接到所有接收器任务) ,Flink 的 JobManager 需要 30 GiB 的堆内存和超过 4 分钟的时间来部署所有任务。
Spark学习技巧
2022-03-14
1.2K0
8000字,详解用户画像,助力企业精细化运营
导读:在互联网步入大数据时代后,用户行为给企业的产品和服务带来了一系列的改变和重塑,其中最大的变化在于,用户的一切行为在企业面前是可“追溯”“分析”的。企业内保存了大量的原始数据和各种业务数据,这是企业经营活动的真实记录,如何更加有效地利用这些数据进行分析和评估,成为企业基于更大数据量背景的问题所在。
Spark学习技巧
2022-03-14
1.2K0
Flink SQL代码生成与UDF重复调用的优化
代码生成(code generation)是当今各种数据库和数据处理引擎广泛采用的物理执行层技术之一。通过代码生成,可以将原本需要解释执行的算子逻辑转为编译执行(二进制代码),充分利用JIT编译的优势,克服传统Volcano模型虚函数调用过多、对寄存器不友好的缺点,在CPU-bound场景下可以获得大幅的性能提升。
Spark学习技巧
2022-03-14
1.4K0
三万字长文 | Spark性能优化实战手册
在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。
Spark学习技巧
2022-03-14
6800
图谱实战 | 知识图谱构建的一站式平台gBuilder
知识图谱能够让机器去理解和认知世界中的事物和现象,并解释现象出现的原因,推理出隐藏在数据之间深层的、隐含的关系,使得知识图谱技术从最初谷歌用来提升搜索引擎的结果来增强用户体验,到现在已经被金融、公安、能源、教育、医疗等领域众多行业进行大量运用。
Spark学习技巧
2022-01-13
2.7K0
Flink CDC 2.0 数据处理流程全面解析
8月份 FlinkCDC 发布2.0.0版本,相较于1.0版本,在全量读取阶段支持分布式读取、支持checkpoint,且在全量 + 增量读取的过程在不锁表的情况下保障数据一致性。
Spark学习技巧
2022-01-13
1.5K0
深入理解HBase Memstore
MemStore是HBase非常重要的组成部分,深入理解MemStore的运行机制、工作原理、相关配置,对HBase集群管理以及性能调优有非常重要的帮助。
Spark学习技巧
2022-01-13
8110
吐血整理:常用的大数据采集工具,你不可不知
大数据的来源多种多样,在大数据时代背景下,如何从大数据中采集出有用的信息是大数据发展的最关键因素。大数据采集是大数据产业的基石,大数据采集阶段的工作是大数据的核心技术之一。为了高效采集大数据,依据采集环境及数据类型选择适当的大数据采集方法及平台至关重要。下面介绍一些常用的大数据采集平台和工具。
Spark学习技巧
2022-01-13
1.8K0
数据仓库&数据指标&数据治理体系搭建方法论
英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。它出于分析性报告和决策支持目的而创建。
Spark学习技巧
2022-01-13
8580
自如用户画像平台建设实践与营销应用
二是分享自如的达芬奇·用户画像平台的建设实践,帮助大家从整到分地了解用户画像的建设过程,以及应有的功能模块;
Spark学习技巧
2022-01-13
2.1K0
基于 Flink 搭建实时平台
1一、前言 在大数据时代,金融科技公司通常借助消费数据来综合评估用户的信用和还款能力。这个过程中,某些中介机构会搜集大量的号并进行“养号”工作,即在一年周期里让这些号形成正常的消费、通讯记录,目的是将这些号“培养”得非常健康,然后卖给有欺诈意向的用户。这类用户通过网上信息提交审核,骗到贷款后就“销声匿迹”了。
Spark学习技巧
2022-01-13
5220
Hadoop 生态里,为什么 Hive 活下来了?
Apache Hive 在 2010 年作为 Hadoop 生态系统的一部分崭露头角,当时 Hadoop 是一种新颖而创新的大数据分析方法。Hive 的功能就是实现 Hadoop 的 SQL 接口。它的架构包括两个主要服务:一是查询引擎:负责执行 SQL 语句;二是元存储:负责在 HDFS 中将数据收集虚拟化为表。
Spark学习技巧
2022-01-13
2950
2021年总结实时数仓最新架构图
1 基于Flink的滴滴实时数仓实践 分享嘉宾:潘澄,滴滴基础平台 资深研发工程师 分享大纲: 整体概况 业务实践 平台&引擎 总结反思 未来规划 📷 📷 2 实时OLAP,从0到1 分享嘉宾:高正炎,比特大陆 分享大纲: 业务背景 机遇挑战 架构演进 架构优化 未来展望 📷 📷 3 腾讯基于Flink + Iceberg 全场景实时数仓的建设实践 分享嘉宾:苏舒,腾讯平台 高级研发工程师 分享大纲: 背景及痛点 数据胡技术apache iceberg flink+ iceberg构建实时数仓 未来规划
Spark学习技巧
2022-01-13
1.8K0
数仓服务平台在唯品会的建设实践
数据服务是数据中台体系中的关键组成部分。作为数仓对接上层应用的统一出入口,数据服务将数仓当作一个统一的 DB 来访问,提供统一的 API 接口控制数据的流入及流出,能够满足用户对不同类型数据的访问需求。
Spark学习技巧
2022-01-13
9940
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档