腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Spark学习技巧

本公众号主要分享Spark使用及源码，spark 机器学习，图计算，同时会涉及到hadoop家族。

专栏作者

810

文章

1221173

阅读量

247

订阅数

深入讲解四种数仓建模理论方法

数据库工具模型设计数据

数据仓库的建设的最重要的核心核心之一就是数仓模型的设计和构建，这个决定了数仓的复用和性能，本文将介绍四种建模的理论：维度建模、关系建模、Data Vault建模、Anchor模型建模，文后也介绍几种常见的数仓建模工具。

Spark学习技巧

2024-01-26

5000

Redis 缓存使用技巧和设计方案

缓存云数据库 Redis 编程算法数据结构数据库

缓存能够有效地加速应用的读写速度，同时也可以降低后端负载，对日常应用的开发至关重要。下面会介绍缓存使用技巧和设计方案，包含如下内容：缓存的收益和成本分析、缓存更新策略的选择和使用场景、缓存粒度控制方法、穿透问题优化、无底洞问题优化、雪崩问题优化、热点key重建优化。

Spark学习技巧

2022-04-18

7790

万字详解 Spark Core 开发调优（建议收藏）

spark 文件存储数据库大数据数据结构

前两天和大家分享了一篇关于 Spark Core 数据倾斜调优相关的文章，今天继续和大家分享一篇关于 Spark 开发调优的文章，干货文章，建议收藏！

Spark学习技巧

2022-04-18

4360

知乎用户画像与实时数据架构实践

数据集成数据库 sql 实时数据集成编程算法

‍‍‍‍‍‍‍‍知乎业务中，随着各业务线业务的发展，逐渐对用户画像和实时数据这两部分的诉求越来越多。对用户画像方面，期望有更快、更准、更方便的人群筛选工具和方便的用户群体分析能力。对于实时数据方面，期望拥有可以实时响应的用户行为流，同时在算法特征、指标统计、业务外显等业务场景有愈来愈多的数据实时化的诉求。

Spark学习技巧

2022-04-18

7760

HiveSQL技术原理、优化与面试

hive sql 数据库 mapreduce

编译 SQL 的任务是在上节中介绍的 COMPILER（编译器组件）中完成的。Hive将SQL转化为MapReduce任务，整个编译过程分为六个阶段：

Spark学习技巧

2022-04-18

5810

一篇并不起眼的Spark面试题

spark 数据库 sql 大数据数据分析

spark是借鉴了Mapreduce,并在其基础上发展起来的，继承了其分布式计算的优点并进行了改进，spark生态更为丰富，功能更为强大，性能更加适用范围广，mapreduce更简单，稳定性好。主要区别

Spark学习技巧

2022-04-18

8610

你一定需要六款大数据采集平台的架构分析

数据库日志数据 sql ruby

随着大数据越来越被重视，数据采集的挑战变的尤为突出。今天为大家介绍几款数据采集平台：

Spark学习技巧

2022-03-15

1.9K0

8000字，详解用户画像，助力企业精细化运营

数据库日志数据 sql 大数据数据分析

导读：在互联网步入大数据时代后，用户行为给企业的产品和服务带来了一系列的改变和重塑，其中最大的变化在于，用户的一切行为在企业面前是可“追溯”“分析”的。企业内保存了大量的原始数据和各种业务数据，这是企业经营活动的真实记录，如何更加有效地利用这些数据进行分析和评估，成为企业基于更大数据量背景的问题所在。

Spark学习技巧

2022-03-14

1.2K0

SparkSQL并行执行多个Job的探索

spark sql 数据库 linux 编程算法

Spark是以TaskSetManager为单元来调度任务的。通常情况下，任务队列中只会有一个TaskSetManager，而通过多线程提交多个Job时，则会有多个TaskSetManager被丢到任务队列中。在有空闲资源的情况下，谁会从队列里被取出来执行就取决于相应的调度策略了。目前，Spark支持FIFO和FAIR两种调度策略。

Spark学习技巧

2022-03-14

1.5K0

三万字长文 | Spark性能优化实战手册

spark 数据库大数据数据分析数据结构

在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。

Spark学习技巧

2022-03-14

6800

干货|Spark优化之高性能Range Join

数据库 sql spark nest node.js

Carmel是eBay内部基于Apache Spark打造的一款SQL-on-Hadoop查询引擎。通过对Apache Spark的改进，我们为用户提供了一套高可用高性能的服务，以满足eBay内部大量分析型的查询需求（如今单日查询量已超过30万）。

Spark学习技巧

2022-01-13

1.6K0

ETL工具算法构建企业级数据仓库五步法

数据库数据分析数据处理编程算法 sql

ETL是数据抽取（Extract）、转换（Transform）、加载（Load ）的简写，它是将OLTP系统中的数据经过抽取，并将不同数据源的数据进行转换、整合，得出一致性的数据，然后加载到数据仓库中。简而言之ETL是完成从 OLTP系统到OLAP系统的过程。

Spark学习技巧

2022-01-13

1.1K0

大批量更新数据mysql批量更新的四种方法

sql 数据库云数据库 SQL Server 腾讯云测试服务

mysql 批量更新如果一条条去更新效率是相当的慢, 循环一条一条的更新记录,一条记录update一次，这样性能很差，也很容易造成阻塞。

Spark学习技巧

2022-01-13

25.2K0

吐血整理：常用的大数据采集工具，你不可不知

scrapy 大数据数据库 sql hadoop

大数据的来源多种多样，在大数据时代背景下，如何从大数据中采集出有用的信息是大数据发展的最关键因素。大数据采集是大数据产业的基石，大数据采集阶段的工作是大数据的核心技术之一。为了高效采集大数据，依据采集环境及数据类型选择适当的大数据采集方法及平台至关重要。下面介绍一些常用的大数据采集平台和工具。

Spark学习技巧

2022-01-13

1.8K0

数据仓库&数据指标&数据治理体系搭建方法论

数据库数据安全大数据数据可视化 sql

英文名称为Data Warehouse，可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境，为企业提供决策支持（Decision Support）。它出于分析性报告和决策支持目的而创建。

Spark学习技巧

2022-01-13

8570

Hive重点难点：Hive原理&优化&面试

hive sql 数据库 mapreduce

Hive SQL的执行计划描述SQL实际执行的整体轮廓，通过执行计划能了解SQL程序在转换成相应计算引擎的执行逻辑，掌握了执行逻辑也就能更好地把握程序出现的瓶颈点，从而能够实现更有针对性的优化。此外还能帮助开发者识别看似等价的SQL其实是不等价的，看似不等价的SQL其实是等价的SQL。可以说执行计划是打开SQL优化大门的一把钥匙。

Spark学习技巧

2022-01-13

1.2K0

用户画像 | 标签数据存储之Hive真实应用

hive 数据库日志数据 sql 存储

本期内容主要介绍使用Hive作为数据仓库的应用场景时，相应的库表结构如何设计。

Spark学习技巧

2022-01-13

9690

Hadoop 生态里，为什么 Hive 活下来了？

hive hadoop 数据库数据分析大数据

Apache Hive 在 2010 年作为 Hadoop 生态系统的一部分崭露头角，当时 Hadoop 是一种新颖而创新的大数据分析方法。Hive 的功能就是实现 Hadoop 的 SQL 接口。它的架构包括两个主要服务：一是查询引擎：负责执行 SQL 语句；二是元存储：负责在 HDFS 中将数据收集虚拟化为表。

Spark学习技巧

2022-01-13

2950

数仓服务平台在唯品会的建设实践

sql 数据库云数据库 SQL Server 编程算法大数据

数据服务是数据中台体系中的关键组成部分。作为数仓对接上层应用的统一出入口，数据服务将数仓当作一个统一的 DB 来访问，提供统一的 API 接口控制数据的流入及流出，能够满足用户对不同类型数据的访问需求。

Spark学习技巧

2022-01-13

9940

MySQL 用 limit 为什么会影响性能？

云数据库 SQL Server sql 数据库 node.js

我们知道，当limit offset rows中的offset很大时，会出现效率问题：

Spark学习技巧

2022-01-13

1.2K0

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态