Spark学习技巧-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Spark学习技巧

本公众号主要分享Spark使用及源码，spark 机器学习，图计算，同时会涉及到hadoop家族。

专栏成员

810

文章

1302468

阅读量

248

订阅数

hive面试必备题

存储 hive 函数面试数据

Hive存储的是逻辑上的数据仓库信息，包括表的定义、数据的存储位置（HDFS路径）、分区和表的元数据等。实际的数据文件存储在HDFS上，Hive通过HQL（Hive Query Language）实现对这些数据的SQL-like查询，本质上是将SQL查询转换为MapReduce任务在Hadoop上执行。

Spark学习技巧

2024-04-12

4250

Spark+Celeborn：更快，更稳，更弹性

存储 spark 内存设计数据

Apache Spark 是广为流行的大数据处理引擎，它有很多使用场景: Spark SQL、批处理、流处理、MLLIB、GraphX 等。在所有组件下是统一的 RDD 抽象，RDD 血缘通过两种依赖关系描述，窄依赖和宽依赖。其中宽依赖是支撑复杂算子（Join, Agg 等）的关键，而宽依赖实现机制就是 Shuffle。

Spark学习技巧

2024-01-22

8140

伴鱼事件分析平台设计

大数据存储分布式

在伴鱼，服务器每天收集的用户行为日志达到上亿条，我们希望能够充分利用这些日志，了解用户行为模式，回答以下问题：

Spark学习技巧

2022-03-15

4470

深入理解HBase Memstore

hbase TDSQL MySQL 版大数据存储

MemStore是HBase非常重要的组成部分，深入理解MemStore的运行机制、工作原理、相关配置，对HBase集群管理以及性能调优有非常重要的帮助。

Spark学习技巧

2022-01-13

9660

用户画像 | 标签数据存储之Hive真实应用

hive 数据库日志数据 sql 存储

本期内容主要介绍使用Hive作为数据仓库的应用场景时，相应的库表结构如何设计。

Spark学习技巧

2022-01-13

1.1K0

ElasticSearch让人叹为观止的分布式系统架构设计

node.js Elasticsearch Service 系统架构分布式存储

分布式系统类型多，涉及面非常广，不同类型的系统有不同的特点，批量计算和实时计算就差别非常大。

Spark学习技巧

2022-01-13

3840

Hadoop重点难点：Hadoop IO/压缩/序列化

node.js hadoop 文件存储存储数据处理

序列化是指将结构化对象转化为字节流以便在网络上传输或写到磁盘进行永久存储的过程。反序列化是指将字节流转回结构化对象的逆过程。

Spark学习技巧

2022-01-13

9330

内存数据库及技术选型

数据库管理缓存存储 sqlite sql

依靠内存来存储数据的数据库管理系统，也称为内存数据库，成为了解决高并发、低时延数据管理需求的技术路线。近年来，随着动态随机存储器（DRAM）容量的上升和单位价格的下降，使大量数据在内存中的存储和处理成为可能，Redis、Memcached等内存数据库管理软件逐渐成熟，应用范围越来越广。

Spark学习技巧

2022-01-13

9400

Apache Spark 内存管理(堆内/堆外)详解

spark 文件存储存储 jvm 缓存

本文旨在梳理出Spark内存管理的脉络，抛砖引玉，引出读者对这个话题的深入探讨。本文中阐述的原理基于Spark 2.1版本，阅读本文需要读者有一定的Spark和Java基础，了解RDD、Shuffle、JVM等相关概念。

Spark学习技巧

2022-01-13

1.5K0

kafka存储结构以及Log清理机制

kafka unix 存储 node.js

如上图所示、kafka 中消息是以主题 topic 为基本单位进行归类的，这里的 topic 是逻辑上的概念，实际上在磁盘存储是根据分区存储的，每个主题可以分为多个分区、分区的数量可以在主题创建的时候进行指定。例如下面 kafka 命令创建了一个 topic 为 test 的主题、该主题下有 4 个分区、每个分区有两个副本保证高可用。

Spark学习技巧

2021-07-29

7410

维度建模技术实践——深入事实表

它存储了业务过程中的各种度量和事实，而这些度量和事实正是下游数据使用人员所要关心和分析的对象。

Spark学习技巧

2021-07-27

1.5K0

浅谈Hbase在用户画像上的应用

数据库 sql 编程算法大数据存储

用户画像，即用户信息标签化，是大数据精细化运营和精准营销服务的基础。设计从基础设施建设到应用层面，主要有数据平台搭建及运维管理、数据仓库开发、上层应用的统计分析、报表生成及可视化、用户画像建模、个性化推荐与精准营销等应用方向。

Spark学习技巧

2021-07-27

1.3K0

漫画全面解释Spark企业调优点

存储 hbase 云数据库 Redis node.js 大数据

一般企业中，物理机器的cpu:内存基本上都是1:4+，比如机器24core，一般有128GB及以上内存；48core，一般有256GB及以上内存。

Spark学习技巧

2021-03-05

4110

分布式图数据库在贝壳的应用实践

api 数据结构知识图谱存储

导读：你想知道百亿级图谱如何实现毫秒级查询吗？社区众多的图数据库中如何才能挑选到一款适合实际应用场景的图数据库呢？贝壳找房的行业图谱480亿量级的三元组究竟是如何存储的呢？本文将带你探索上述问题并从中得到解答。本次分享题目为"分布式图数据库在贝壳找房的应用实践"，共分为以下五大块内容：

Spark学习技巧

2021-03-05

1.2K0

用 Apache Pulsar SQL 查询数据流

sql apache 存储 uml 数据湖

Apache Pulsar 越来越受欢迎，尤其在成为 Apache 软件基金会的顶级项目后。

Spark学习技巧

2021-03-05

1.6K0

【开发实践】美团为什么开发 Kylin On Druid（上）？

apache hbase TDSQL MySQL 版存储 hadoop

在大数据分析领域，Apache Kylin 和 Apache Druid （incubating）是两个普遍使用的 OLAP 引擎，都具有支持在超大数据上进行快速查询的能力。在一些对大数据分析非常依赖的企业，往往同时运行着 Kylin 和 Druid 两套系统，服务于不同的业务场景。

Spark学习技巧

2021-03-05

7560

【开发实践】美团为什么开发 Kylin On Druid（下）？

云数据库 SQL Server 数据库 sql 存储 hbase

在上篇文章里，我们比较了 Kylin 和 Druid 这两个重要的 OLAP引擎的特点，也分析了 Kylin on HBase 的不足，得出了使用 Druid 代替 HBase 作为 Kylin 存储的方案，最后介绍了美团开发的 Kylin on Druid 的架构和流程。在这篇文章中，我们接着上篇文章，将介绍如何使用 Kylin on Druid，Kylin on Druid 的性能表现，以及在使用过程中总结的一些经验。

Spark学习技巧

2021-03-05

3830

稀疏索引与其在Kafka和ClickHouse中的应用

node.js http 存储 kafka 编程算法

在以数据库为代表的存储系统中，索引（index）是一种附加于原始数据之上的数据结构，能够通过减少磁盘访问来提升查询速度，与现实中的书籍目录异曲同工。索引通常包含两部分，即索引键（≈章节）与指向原始数据的指针（≈页码），如下图所示。

Spark学习技巧

2021-02-12

2.8K0

一文深入掌握druid

日志数据 zookeeper 存储缓存数据库

Druid是专用于基于大数据集的实时探索分析的开源数据存储。该系统包括列式存储，分布式的无共享架构，高级索引结构，可用于任意探索具有次秒级延迟的十亿行级的数据表。这篇文章我们主要描述Druid的架构，并且详细说明它如何支持快速聚合、灵活筛选以及低延迟数据的加载。

Spark学习技巧

2021-01-07

1.5K0

Kafka丢失数据问题优化总结

node.js 缓存 kafka 存储

数据丢失是一件非常严重的事情事，针对数据丢失的问题我们需要有明确的思路来确定问题所在，针对这段时间的总结，我个人面对kafka 数据丢失问题的解决思路如下：

Spark学习技巧

2021-01-07

3.9K0

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态