腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Spark学习技巧

本公众号主要分享Spark使用及源码，spark 机器学习，图计算，同时会涉及到hadoop家族。

专栏作者

810

文章

1222202

阅读量

247

订阅数

大数据圈还能混吗？

大数据工作开发框架数据

工作这么多年，浪尖一直从事大数据相关的架构设计，计算框架的二次开发，尤其是实时计算框架，最近两年在搞实时数仓和数据分析，浪尖算是跟着大数据生态成长起来的老人了。

Spark学习技巧

2023-10-07

2130

万字详解 Spark Core 开发调优（建议收藏）

spark 文件存储数据库大数据数据结构

前两天和大家分享了一篇关于 Spark Core 数据倾斜调优相关的文章，今天继续和大家分享一篇关于 Spark 开发调优的文章，干货文章，建议收藏！

Spark学习技巧

2022-04-18

4370

数据质量监控框架及解决方案总结

apache 大数据开源 python

随着业务发展和数据量的增加，大数据应用开发已成为部门应用开发常用的开发方式，由于部门业务特点的关系，spark和hive应用开发在部门内部较为常见。当处理的数据量达到一定量级和系统的复杂度上升时，数据的唯一性、完整性、一致性等等校验就开始受到关注，而通常做法是根据业务特点，额外开发job如报表或者检查任务，这样会比较费时费力。

Spark学习技巧

2022-04-18

1.2K0

一篇并不起眼的Spark面试题

spark 数据库 sql 大数据数据分析

spark是借鉴了Mapreduce,并在其基础上发展起来的，继承了其分布式计算的优点并进行了改进，spark生态更为丰富，功能更为强大，性能更加适用范围广，mapreduce更简单，稳定性好。主要区别

Spark学习技巧

2022-04-18

8630

2022数据工程师如何避免陷入内卷？

数据分析大数据

内卷（involution）是近两年流行起来的一个名词，用来指带人类社会在一个发展阶段达到某种确定的形式后，停滞不前或无法转化为另一种高级模式的现象，现在很多人用它来指代非理性的内部竞争或“被自愿”竞争。

Spark学习技巧

2022-03-15

2730

伴鱼事件分析平台设计

大数据存储分布式

在伴鱼，服务器每天收集的用户行为日志达到上亿条，我们希望能够充分利用这些日志，了解用户行为模式，回答以下问题：

Spark学习技巧

2022-03-15

4160

如何提高Flink大规模作业的调度器性能

flink 大数据缓存编程算法

在 Flink 1.12 中调度大规模作业时，需要大量的时间来初始化作业和部署任务。调度器还需要大量的堆内存来存储执行拓扑和主机临时部署描述符。例如，对于一个拓扑结构的作业，该作业包含两个与全对全边相连且并行度为 10k 的作业（这意味着有 10k 个源任务和 10k 个接收器任务，并且每个源任务都连接到所有接收器任务），Flink 的 JobManager 需要 30 GiB 的堆内存和超过 4 分钟的时间来部署所有任务。

Spark学习技巧

2022-03-14

1.2K0

8000字，详解用户画像，助力企业精细化运营

数据库日志数据 sql 大数据数据分析

导读：在互联网步入大数据时代后，用户行为给企业的产品和服务带来了一系列的改变和重塑，其中最大的变化在于，用户的一切行为在企业面前是可“追溯”“分析”的。企业内保存了大量的原始数据和各种业务数据，这是企业经营活动的真实记录，如何更加有效地利用这些数据进行分析和评估，成为企业基于更大数据量背景的问题所在。

Spark学习技巧

2022-03-14

1.2K0

Flink SQL代码生成与UDF重复调用的优化

javascript sql 编程算法 flink 大数据

代码生成（code generation）是当今各种数据库和数据处理引擎广泛采用的物理执行层技术之一。通过代码生成，可以将原本需要解释执行的算子逻辑转为编译执行（二进制代码），充分利用JIT编译的优势，克服传统Volcano模型虚函数调用过多、对寄存器不友好的缺点，在CPU-bound场景下可以获得大幅的性能提升。

Spark学习技巧

2022-03-14

1.4K0

三万字长文 | Spark性能优化实战手册

spark 数据库大数据数据分析数据结构

在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。

Spark学习技巧

2022-03-14

6800

图谱实战 | 知识图谱构建的一站式平台gBuilder

http 编程算法 sql 知识图谱大数据

知识图谱能够让机器去理解和认知世界中的事物和现象，并解释现象出现的原因，推理出隐藏在数据之间深层的、隐含的关系，使得知识图谱技术从最初谷歌用来提升搜索引擎的结果来增强用户体验，到现在已经被金融、公安、能源、教育、医疗等领域众多行业进行大量运用。

Spark学习技巧

2022-01-13

2.7K0

Flink CDC 2.0 数据处理流程全面解析

大数据 flink 数据处理

8月份 FlinkCDC 发布2.0.0版本，相较于1.0版本，在全量读取阶段支持分布式读取、支持checkpoint，且在全量 + 增量读取的过程在不锁表的情况下保障数据一致性。

Spark学习技巧

2022-01-13

1.5K0

深入理解HBase Memstore

hbase TDSQL MySQL 版大数据存储

MemStore是HBase非常重要的组成部分，深入理解MemStore的运行机制、工作原理、相关配置，对HBase集群管理以及性能调优有非常重要的帮助。

Spark学习技巧

2022-01-13

8110

吐血整理：常用的大数据采集工具，你不可不知

scrapy 大数据数据库 sql hadoop

大数据的来源多种多样，在大数据时代背景下，如何从大数据中采集出有用的信息是大数据发展的最关键因素。大数据采集是大数据产业的基石，大数据采集阶段的工作是大数据的核心技术之一。为了高效采集大数据，依据采集环境及数据类型选择适当的大数据采集方法及平台至关重要。下面介绍一些常用的大数据采集平台和工具。

Spark学习技巧

2022-01-13

1.8K0

数据仓库&数据指标&数据治理体系搭建方法论

数据库数据安全大数据数据可视化 sql

英文名称为Data Warehouse，可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境，为企业提供决策支持（Decision Support）。它出于分析性报告和决策支持目的而创建。

Spark学习技巧

2022-01-13

8580

自如用户画像平台建设实践与营销应用

二是分享自如的达芬奇·用户画像平台的建设实践，帮助大家从整到分地了解用户画像的建设过程，以及应有的功能模块；

Spark学习技巧

2022-01-13

2.1K0

基于 Flink 搭建实时平台

flink 系统架构 hbase TDSQL MySQL 版大数据

1一、前言在大数据时代，金融科技公司通常借助消费数据来综合评估用户的信用和还款能力。这个过程中，某些中介机构会搜集大量的号并进行“养号”工作，即在一年周期里让这些号形成正常的消费、通讯记录，目的是将这些号“培养”得非常健康，然后卖给有欺诈意向的用户。这类用户通过网上信息提交审核，骗到贷款后就“销声匿迹”了。

Spark学习技巧

2022-01-13

5220

Hadoop 生态里，为什么 Hive 活下来了？

hive hadoop 数据库数据分析大数据

Apache Hive 在 2010 年作为 Hadoop 生态系统的一部分崭露头角，当时 Hadoop 是一种新颖而创新的大数据分析方法。Hive 的功能就是实现 Hadoop 的 SQL 接口。它的架构包括两个主要服务：一是查询引擎：负责执行 SQL 语句；二是元存储：负责在 HDFS 中将数据收集虚拟化为表。

Spark学习技巧

2022-01-13

2950

2021年总结实时数仓最新架构图

实时数仓 flink 大数据云计算

1 基于Flink的滴滴实时数仓实践分享嘉宾：潘澄,滴滴基础平台资深研发工程师分享大纲：整体概况业务实践平台&引擎总结反思未来规划 📷 📷 2 实时OLAP，从0到1 分享嘉宾：高正炎,比特大陆分享大纲：业务背景机遇挑战架构演进架构优化未来展望 📷 📷 3 腾讯基于Flink + Iceberg 全场景实时数仓的建设实践分享嘉宾：苏舒,腾讯平台高级研发工程师分享大纲：背景及痛点数据胡技术apache iceberg flink+ iceberg构建实时数仓未来规划

Spark学习技巧

2022-01-13

1.8K0

数仓服务平台在唯品会的建设实践

sql 数据库云数据库 SQL Server 编程算法大数据

数据服务是数据中台体系中的关键组成部分。作为数仓对接上层应用的统一出入口，数据服务将数仓当作一个统一的 DB 来访问，提供统一的 API 接口控制数据的流入及流出，能够满足用户对不同类型数据的访问需求。

Spark学习技巧

2022-01-13

9940

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态