数据库开发工程师

Spark学习技巧

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

窗口函数也称为OLAP函数，OLAP 是OnLine Analytical Processing 的简称，意思是对数据库数据进行实时分析处理。例如，市场分析、创建财务报表、创建计划等日常性商务工作。窗口函数就是为了实现OLAP 而添加的标准SQL 功能。

HiveSQL分析函数实践详解

《DAMA数据管理知识体系指南》对企业的数据管理成熟度定义了6个层级，分别为：0级-无能力、1级-初始或临时级、2级-可重复级、3级-已定义级、4级-已管理级、5级-优化级，级别越高数据管理越成熟。对于前期缺少数据管理经验的企业，在无数据专家或数据顾问公司支撑的情况下，容易导致以下的问题：

15张架构图，详解数据中台建设框架！

在 Scala 中，闭包是一种函数，它可以捕获并使用其作用域之外定义的变量。闭包由两部分组成：一个函数，以及该函数引用的外部变量的环境。这意味着即使外部变量的作用域已经结束，闭包依然可以访问和操作这些变量。

闭包在Scala中的含义，使用场景和各个场景的代码案例

为了能够让我后面的实例能够贯穿这两个工具的使用，我首先简单描述下我们在开发中遇到的实际的性能问题。然后再引出这两个性能工具的实际使用，看我们如何使用这两个工具成功定位到性能瓶颈的。

JMH + Arthas，性能监控的神器

Apache 软件基金会发布了包含许多新特性和改进的 Kafka 3.3.1。这是第一个标志着可以在生产环境中使用KRaft（Kafka Raft）共识协议的版本。在几年的开发过程中，它先是在 Kafka 2.8 早期访问版本中发布，然后又在 Kafka 3.0 预览版本中发布。

Kafka 3.3 使用 KRaft 共识协议替代 ZooKeeper

Hive存储的是逻辑上的数据仓库信息，包括表的定义、数据的存储位置（HDFS路径）、分区和表的元数据等。实际的数据文件存储在HDFS上，Hive通过HQL（Hive Query Language）实现对这些数据的SQL-like查询，本质上是将SQL查询转换为MapReduce任务在Hadoop上执行。

hive面试必备题

中间件（Middleware）是位于客户端和服务器端之间的软件服务层，它提供了一种通用服务的方式，帮助不同的应用程序、系统组件和服务之间进行交互和数据交换。中间件隐藏了底层的复杂性，使得开发者可以专注于业务逻辑的实现，而不需要从头构建底层的通信、数据管理等机制。Redis、RabbitMQ 等被称为中间件，是因为它们为应用程序提供了特定的服务（如数据存储、消息队列），从而充当了应用程序和底层系统之间的“中间人”。

javaer 为什么称redis、rabbitmq这些东西为中间件？

Apache SeaTunnel 是一个非常易用的超高性能分布式数据集成产品，支持海量数据的离线及实时同步。每天可稳定高效同步万亿级数据，已应用于数百家企业生产，也是首个由国人主导贡献到 Apache 基金会的数据集成顶级项目。

SeaTunnel 与 DataX 、Sqoop、Flume、Flink CDC 对比

虽然有差异，但是差异极小，考虑到执行了100000次，每次耗时的差异就更小了，而且程序执行有各种因素影响执行效率，可以认为耗时差不多。也可以多次执行对比耗时差异，也可以发现基本一致。

为什么 IDEA 建议去掉 StringBuilder，而要使用 “+” 拼接字符串？

最近客户有个新需求，就是想查看网站的访问情况，由于网站没有做google的统计和百度的统计，所以访问情况，只能通过日志查看，通过脚本的形式给客户导出也不太实际，给客户写个简单的页面，咱也做不到

不好意思，ELK 该换了！

随着互联网的快速发展，数据量呈爆炸性增长，安全分析领域面临着前所未有的挑战。传统的安全分析方法在处理海量数据时显得力不从心，无法满足实时、高效的需求。为了解决这一问题，Flink作为一种实时数据处理框架，逐渐在安全分析领域崭露头角。本文将基于涂鸦SOC平台建设经验浅谈Flink在安全分析领域的应用。

Flink在涂鸦防护体系中的应用

1991年，比尔·恩门（Bill Inmon）出版了他的第一本关于数据仓库的书《Building the Data Warehouse》，标志着数据仓库概念的确立。

4000字读懂实时数仓的过去现在和未来(建议收藏)

 数据仓库的建设的最重要的核心核心之一就是数仓模型的设计和构建，这个决定了数仓的复用和性能，本文将介绍四种建模的理论：维度建模、关系建模、Data Vault建模、Anchor模型建模，文后也介绍几种常见的数仓建模工具。

深入讲解四种数仓建模理论方法

Apache Spark 是广为流行的大数据处理引擎，它有很多使用场景: Spark SQL、批处理、流处理、MLLIB、GraphX 等。在所有组件下是统一的 RDD 抽象，RDD 血缘通过两种依赖关系描述，窄依赖和宽依赖。其中宽依赖是支撑复杂算子（Join, Agg 等）的关键，而宽依赖实现机制就是 Shuffle。

Spark+Celeborn：更快，更稳，更弹性

本文是作者本人做数仓调优时，所经常使用的SQL调优技巧，这些“技巧”也是经过日常不断摸索、问题排查以及网络检索并且经过本人在线上大规模使用过的，对于下面这12条（不算多，但特别有用）调优小“技巧”，希望能帮助阅读本文的同学能够在日常编写分析语句时，提升任务执行的效率。

12条SQL不起眼的数仓调优技巧

FlinkCEP是在Flink上层实现的复杂事件处理库。 它可以让你在无限事件流中检测出特定的事件模型，有机会掌握数据中重要的那部分。

FlinkCEP - Flink的复杂事件处理

导读：发现一篇好文，分享给大家。全文分为四个部分，基本涵盖了所有Spark优化的点，面试和实际工作中必备。全文较长，建议收藏后PC端查看或工作中问题troubleshooting。

万字Spark性能优化宝典（收藏版）

本文内容基于自己从事支付领域从0到1搭建支付业务数据分析实战经验。如果你对写代码念念不忘，可以看我的历史文章，有很多代码相关的内容。

一文讲透如何做数据分析和指标体系

最近发现一本好书，读完感觉讲的非常好，首先安利给大家，国内第一本系统讲解数据血缘的书！点赞！

详解数据仓库之拉链表（原理、设计以及在Hive中的实现）

  用户增长基本上会涉及生意场上的各行各业，你开个店面希望有更多的客户光顾，你做了个APP希望有更多的用户经常使用，你搭建了个电商平台希望有更多的人下单买东西。

用户增长常见分析模型

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了Spark学习技巧专栏，为你提供了Spark学习技巧的相关文章，致力于帮助开发者快速成长与发展。

Spark学习技巧

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐