首页
学习
活动
专区
工具
TVP
发布

Spark学习技巧

本公众号主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到hadoop家族。
专栏作者
810
文章
1220057
阅读量
247
订阅数
Redis 缓存使用技巧和设计方案
缓存能够有效地加速应用的读写速度,同时也可以降低后端负载,对日常应用的开发至关重要。下面会介绍缓存使用技巧和设计方案,包含如下内容:缓存的收益和成本分析、缓存更新策略的选择和使用场景、缓存粒度控制方法、穿透问题优化、无底洞问题优化、雪崩问题优化、热点key重建优化。
Spark学习技巧
2022-04-18
7720
万字详解 Spark Core 开发调优(建议收藏)
前两天和大家分享了一篇关于 Spark Core 数据倾斜调优 相关的文章,今天继续和大家分享一篇关于 Spark 开发调优的文章,干货文章,建议收藏!
Spark学习技巧
2022-04-18
4360
Kafka 时间轮(TimingWheel)原理,值得借鉴
在kafka中,有许多请求并不是立即返回,而且处理完一些异步操作或者等待某些条件达成后才返回,这些请求一般都会带有timeout参数,表示如果timeout时间后服务端还不满足返回的条件,就判定此次请求为超时,这时候kafka同样要返回超时的响应给客户端,这样客户端才知道此次请求超时了。比如ack=-1的producer请求,就需要等待所有的isr备份完成了才可以返回给客户端,或者到达timeout时间了返回超时响应给客户端。
Spark学习技巧
2022-03-15
1.6K0
三万字长文 | Spark性能优化实战手册
在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。
Spark学习技巧
2022-03-14
6800
元数据管理在数据仓库的实践应用
导读:元数据管理是企业数据治理的基础,是数据仓库的提升。作为一名数据人,首要任务就是理解元数据管理。
Spark学习技巧
2022-01-13
5910
面试官问JDK7和JDK8的HashMap不一样在哪里?我懵了
相信大家在面试的时候,肯定很多人被问到HashMap,一般上来都是 HashMap 用过没有,说一下他的数据结构吧,但是阿粉的朋友去面试的时候,上来直接进入主题,HashMap 在 JDK7 和 JDK8 中出现了变化,你知道都是哪些不一样的地方么?有什么优缺点么?
Spark学习技巧
2022-01-13
1860
分布式图数据库在贝壳的应用实践
导读:你想知道百亿级图谱如何实现毫秒级查询吗?社区众多的图数据库中如何才能挑选到一款适合实际应用场景的图数据库呢?贝壳找房的行业图谱480亿量级的三元组究竟是如何存储的呢?本文将带你探索上述问题并从中得到解答。本次分享题目为"分布式图数据库在贝壳找房的应用实践",共分为以下五大块内容:
Spark学习技巧
2021-03-05
1.1K0
数据仓库系统建设中的工作流及优化
导读:随着 IT 时代步入到 DT 时代,从数据中挖掘价值已经变得越来越重要。数据仓库系统长期以来一直是企业 IT 架构的重要组成部分,并且逐步与大数据等技术相融合,已然成为建设数据文化的智慧型企业的必然措施。
Spark学习技巧
2021-03-05
5470
面试|不可不知的十大Hive调优技巧最佳实践
Apache Hive是建立在Apache Hadoop之上的数据仓库软件项目,用于提供数据查询和分析。Hive是Hadoop在HDFS上的SQL接口,它提供了类似于SQL的接口来查询存储在与Hadoop集成的各种数据库和文件系统中的数据。可以说从事数据开发工作,无论是在平时的工作中,还是在面试中,Hive具有举足轻重的地位,尤其是Hive的性能调优方面,不仅能够在工作中提升效率而且还可以在面试中脱颖而出。在本文中,我将分享十个性能优化技术,全文如下。
Spark学习技巧
2021-03-05
1.2K0
大数据OLAP系统(2)——开源组件篇
开源大数据OLAP组件,可以分为MOLAP和ROLAP两类。ROLAP中又可细分为MPP数据库和SQL引擎两类。对于SQL引擎又可以再细分为基于MPP架构的SQL引擎和基于通用计算框架的SQL引擎:
Spark学习技巧
2020-12-28
2.2K0
百亿级图数据JanusGraph迁移之旅
目前我们的图数据库数据量为 顶点 20 亿,边 200 亿的规模。在迁移之前我们使用的 AgensGraph 数据库 一个主库四个备库,机器的配置都比较高,256G 内存 SSD 的磁盘,单机数据量为 3T左右。 在数据量比较小的情况下 AgensGraph 表现非常稳定优异,我们之前一主一备的情况下支撑了很长一段时间。 但随着公司业务的急速发展,图越来越大,占用的磁盘越来越多,对应的查询量也越来越大,随之这种方案的问题就暴露出来了
Spark学习技巧
2020-10-10
2.5K0
图数据库调研
注意,这里只是说了通过 提供类似图的语义查询功能,并没有规定图的存储结构。图数据库的主要优点:
Spark学习技巧
2020-09-27
6.5K0
Gremlin 图查询概述
图形数据库是 NoSQL 数据库的一种类型,它应用图形理论存储实体之间的关系信息。最常见的例子,就是社会网络中人与人之间的关系。关系型数据库用于存储关系型数据的效果并不好,其查询复杂、缓慢、超出预期,而图形数据库的独特设计恰恰弥补了这个缺陷。Google的图形计算系统名为 Pregel。
Spark学习技巧
2020-09-08
3.9K0
做olap一定要要了解的Druid存储结构
导读:Apache Druid是一款优秀的OLAP引擎,众所周知数据存储格式对一款存储系统来说是最核心的组件,Druid的数据格式是自定义的,以此保证了在海量数据下的亚秒级查询。本文深入分析Druid V1版本数据存储格式,包括索引结构和数据在磁盘中的存储方式。在阅读本文之前希望您对Druid和数据存储有简单了解。
Spark学习技巧
2020-07-17
1.6K0
马蜂窝数据仓库的架构、模型与应用实践
最近几年,数据中台概念的热度一直不减。2018 年起,马蜂窝也开始了自己的数据中台探索之路。
Spark学习技巧
2019-11-15
1.1K0
通识 | 数据结构图如何利用大数据框架存
很久没写过文章了,今天就分享一下大数据中的图数据库Janusgraph的存储模型。希望对想做大数据图存储的粉丝有一定的帮助吧。由于没时间画图,所以图片来源于网络和Janusgraph官网,感谢各位作者的贡献。
Spark学习技巧
2019-11-07
6760
数据库索引原理及优化
本文以MySQL数据库为研究对象,讨论与数据库索引相关的一些话题。特别需要说明的是,MySQL支持诸多存储引擎,而各种存储引擎对索引的支持也各不相同,因此MySQL数据库支持多种索引类型,如BTree索引,哈希索引,全文索引等等。为了避免混乱,本文将只关注于BTree索引,因为这是平常使用MySQL时主要打交道的索引,至于哈希索引和全文索引本文暂不讨论。
Spark学习技巧
2019-09-04
5880
Thrift or gRPC ?Alluxio RPC框架的深度实践总结
作为Alluxio 2.0发布版本的一部分,我们将RPC框架从Apache Thrift(见文末链接1)变为gRPC(见文末链接2)。在本文中,我们将讨论这一变化背后的原因以及我们在此过程中学到的一些经验。
Spark学习技巧
2019-07-22
3.5K0
大数据实战|怎样实现大型电商热销榜?
上次给粉丝的福利,购买极客时间课程,浪尖这里返现:球友24元,非球友10元或者8折入球。大家还记得吗,发现很多粉丝比较滞后,这两天还陆续找我要返现,,,今天看了一下,极客时间优惠还剩两天吧,过了这两天就真没返现了,找我,我也不能贴补你,,,活动详情可以阅读下文。扫文末二维码购买然后联系浪尖。
Spark学习技巧
2019-05-14
1K0
一文搞定Redis高级特性与性能调优
本文从 Redis 基本特性入手,通过讲述 Redis 的数据结构和主要命令对 Redis 的基本能力进行直观介绍。之后概览 Redis 提供的高级能力,并在部署、维护、性能调优等多个方面深入介绍和指导。
Spark学习技巧
2019-05-09
1K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档