首页
学习
活动
专区
工具
TVP
发布

Spark学习技巧

本公众号主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到hadoop家族。
专栏作者
810
文章
1229202
阅读量
247
订阅数
Flink+Clickhouse在广投集团实时数仓的最佳实践
由于历史原因,大型集团企业往往多个帐套系统共存,包括国内知名ERP厂商浪潮、用友、金蝶、速达所提供的财务系统,集团财务共享中心的财务人员在核对财务凭证数据时经常需要跨多个系统查询且每个系统使用方式不一,同时因为系统累计数据庞大,制单和查询操作经常出现卡顿,工作效率非常低。
Spark学习技巧
2023-03-21
7370
深入理解HBase Memstore
MemStore是HBase非常重要的组成部分,深入理解MemStore的运行机制、工作原理、相关配置,对HBase集群管理以及性能调优有非常重要的帮助。
Spark学习技巧
2022-01-13
8140
基于 Flink 搭建实时平台
1一、前言 在大数据时代,金融科技公司通常借助消费数据来综合评估用户的信用和还款能力。这个过程中,某些中介机构会搜集大量的号并进行“养号”工作,即在一年周期里让这些号形成正常的消费、通讯记录,目的是将这些号“培养”得非常健康,然后卖给有欺诈意向的用户。这类用户通过网上信息提交审核,骗到贷款后就“销声匿迹”了。
Spark学习技巧
2022-01-13
5230
HBase Block Cache(块缓存)|面试必备
HBase提供了两种不同的BlockCache实现,用于缓存从HDFS读出的数据。这两种分别为:
Spark学习技巧
2022-01-13
1.6K0
一篇并不起眼的Hbase面试题
Client写入 -> 存入MemStore,一直到MemStore满 -> Flush成一个StoreFile,直至增长到一定阈值 -> 触发Compact合并操作 -> 多个StoreFile合并成一个StoreFile,同时进行版本合并和数据删除 -> 当StoreFiles Compact后,逐步形成越来越大的StoreFile -> 单个StoreFile大小超过一定阈值后(默认10G),触发Split操作,把当前Region Split成2个Region,Region会下线,新Split出的2个孩子Region会被HMaster分配到相应的HRegionServer 上,使得原先1个Region的压力得以分流到2个Region上
Spark学习技巧
2022-01-13
1.2K0
漫画全面解释Spark企业调优点
一般企业中,物理机器的cpu:内存基本上都是1:4+,比如机器24core,一般有128GB及以上内存;48core,一般有256GB及以上内存。
Spark学习技巧
2021-03-05
3870
HBase运维:如何逆向修复HBase元数据表
最近知识星球有人问浪尖,自己的hbase集群元数据丢失了,但是数据还在,是否能够修复,其实这种情况下利用数据的hfile去修复元数据很常见,也有很多时候我们是生成hfile加载进hbase。
Spark学习技巧
2021-03-05
2.9K0
Kylin 最佳实践|爱奇艺如何处理千亿级数据
爱奇艺发展的大体时间线,2015 年前以离线分析为主,技术上是经典的 Hive + MySQL 方案,但缺点是报表查询比较慢,而且数据时效性差;2016 - 2018 年致力于将查询耗时提升至交互式级别,分为两大类:Kylin 针对固定报表,在维度比较有限的情况下,通过一个预处理,TB 级别数据延时能在秒级,而 Impala 则针对 Ad-hoc 类场景,可以查询任意明细数据;2018 年以后从离线往实时去发力,其中 Kudu 支持实时插入和更新,Druid 支持事件流场景。
Spark学习技巧
2021-03-05
5070
【开发实践】美团为什么开发 Kylin On Druid(上)?
在大数据分析领域,Apache Kylin 和 Apache Druid (incubating) 是两个普遍使用的 OLAP 引擎,都具有支持在超大数据上进行快速查询的能力。在一些对大数据分析非常依赖的企业,往往同时运行着 Kylin 和 Druid 两套系统,服务于不同的业务场景。
Spark学习技巧
2021-03-05
7160
【开发实践】美团为什么开发 Kylin On Druid(下)?
在上篇文章里,我们比较了 Kylin 和 Druid 这两个重要的 OLAP引擎的特点,也分析了 Kylin on HBase 的不足,得出了使用 Druid 代替 HBase 作为 Kylin 存储的方案,最后介绍了美团开发的 Kylin on Druid 的架构和流程。在这篇文章中,我们接着上篇文章,将介绍如何使用 Kylin on Druid,Kylin on Druid 的性能表现,以及在使用过程中总结的一些经验。
Spark学习技巧
2021-03-05
3640
Apache Kylin 在中通快递的实践
Apache Kylin 在中通是如何落地的,又是怎样赋能中通快递实现 OLAP 分析能力起飞的?本文从多方面对比了 Presto 和 Kylin 的优缺点,并从业务场景、调度整合、监控系统、运维调优、源码和二次开发等多个角度进行了阐述。
Spark学习技巧
2021-03-05
7740
Hbase Bulkload 原理|面试必备
下面假设我们有一个 CSV 文件,是存储用户购买记录的。它一共有三列, order_id,consumer,product。我们需要将这个文件导入到Hbase里,其中 order_id 作为Hbase 的 row key。
Spark学习技巧
2021-03-05
2.1K0
百亿级图数据JanusGraph迁移之旅
目前我们的图数据库数据量为 顶点 20 亿,边 200 亿的规模。在迁移之前我们使用的 AgensGraph 数据库 一个主库四个备库,机器的配置都比较高,256G 内存 SSD 的磁盘,单机数据量为 3T左右。 在数据量比较小的情况下 AgensGraph 表现非常稳定优异,我们之前一主一备的情况下支撑了很长一段时间。 但随着公司业务的急速发展,图越来越大,占用的磁盘越来越多,对应的查询量也越来越大,随之这种方案的问题就暴露出来了
Spark学习技巧
2020-10-10
2.5K0
基于 Flink 搭建实时个性化营销平台?
在大数据时代,金融科技公司通常借助消费数据来综合评估用户的信用和还款能力。这个过程中,某些中介机构会搜集大量的号并进行“养号”工作,即在一年周期里让这些号形成正常的消费、通讯记录,目的是将这些号“培养”得非常健康,然后卖给有欺诈意向的用户。这类用户通过网上信息提交审核,骗到贷款后就“销声匿迹”了。
Spark学习技巧
2020-08-02
9190
从B+树到LSM树,及LSM树在HBase中的应用
在有代表性的关系型数据库如MySQL、SQL Server、Oracle中,数据存储与索引的基本结构就是我们耳熟能详的B树和B+树。而在一些主流的NoSQL数据库如HBase、Cassandra、LevelDB、RocksDB中,则是使用日志结构合并树(Log-structured Merge Tree,LSM Tree)来组织数据。本文先由B+树来引出对LSM树的介绍,然后说明HBase中是如何运用LSM树的。
Spark学习技巧
2020-07-15
2K0
HBase 数据迁移到 Kafka 实战
https://www.cnblogs.com/smartloli/p/11521659.html
Spark学习技巧
2020-06-09
7050
​从 Spark Streaming 到 Apache Flink:bilibili 实时平台的架构与实践
摘要:本文由 bilibili 大数据实时平台负责人郑志升分享,基于对 bilibili 实时计算的痛点分析,详细介绍了 bilibili Saber 实时计算平台架构与实践。本次分享主要围绕以下四个方面:
Spark学习技巧
2020-02-26
1.4K0
ZB级的大数据探索与应用实践【附PPT】
据报告显示到2025年,全球将产生180ZB的数据。这些海量的数据正是企业进行数字化转型的核心生产因素,然而真正被有效存储、使用和分析的数据不到百分之十。如何从ZB级的数据中寻找分析有价值的信息并回馈到业务发展才是关键。11月30日UCan技术沙龙大数据专场(北京站)邀请了5位资深大数据技术专家分享他们对大数据的探索和应用实践。
Spark学习技巧
2019-12-25
1K0
再谈|Rowkey设计_HBase表设计
HBase的rowkey设计可以说是使用HBase最为重要的事情,直接影响到HBase的性能,常见的RowKey的设计问题及对应访问为:
Spark学习技巧
2019-12-15
1.2K0
通识 | 数据结构图如何利用大数据框架存
很久没写过文章了,今天就分享一下大数据中的图数据库Janusgraph的存储模型。希望对想做大数据图存储的粉丝有一定的帮助吧。由于没时间画图,所以图片来源于网络和Janusgraph官网,感谢各位作者的贡献。
Spark学习技巧
2019-11-07
6770
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档