Spark学习技巧-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Spark学习技巧

本公众号主要分享Spark使用及源码，spark 机器学习，图计算，同时会涉及到hadoop家族。

专栏成员

810

文章

1303526

阅读量

248

订阅数

Flink+Clickhouse在广投集团实时数仓的最佳实践

hbase kafka 实时数仓 flink mysql

由于历史原因，大型集团企业往往多个帐套系统共存，包括国内知名ERP厂商浪潮、用友、金蝶、速达所提供的财务系统，集团财务共享中心的财务人员在核对财务凭证数据时经常需要跨多个系统查询且每个系统使用方式不一，同时因为系统累计数据庞大，制单和查询操作经常出现卡顿，工作效率非常低。

Spark学习技巧

2023-03-21

8590

深入理解HBase Memstore

hbase TDSQL MySQL 版大数据存储

MemStore是HBase非常重要的组成部分，深入理解MemStore的运行机制、工作原理、相关配置，对HBase集群管理以及性能调优有非常重要的帮助。

Spark学习技巧

2022-01-13

9670

基于 Flink 搭建实时平台

flink 系统架构 hbase TDSQL MySQL 版大数据

1一、前言在大数据时代，金融科技公司通常借助消费数据来综合评估用户的信用和还款能力。这个过程中，某些中介机构会搜集大量的号并进行“养号”工作，即在一年周期里让这些号形成正常的消费、通讯记录，目的是将这些号“培养”得非常健康，然后卖给有欺诈意向的用户。这类用户通过网上信息提交审核，骗到贷款后就“销声匿迹”了。

Spark学习技巧

2022-01-13

5660

HBase Block Cache（块缓存）｜面试必备

缓存 hbase TDSQL MySQL 版

HBase提供了两种不同的BlockCache实现，用于缓存从HDFS读出的数据。这两种分别为：

Spark学习技巧

2022-01-13

1.9K0

一篇并不起眼的Hbase面试题

hbase TDSQL MySQL 版大数据数据库 sql

Client写入 -> 存入MemStore，一直到MemStore满 -> Flush成一个StoreFile，直至增长到一定阈值 -> 触发Compact合并操作 -> 多个StoreFile合并成一个StoreFile，同时进行版本合并和数据删除 -> 当StoreFiles Compact后，逐步形成越来越大的StoreFile -> 单个StoreFile大小超过一定阈值后（默认10G），触发Split操作，把当前Region Split成2个Region，Region会下线，新Split出的2个孩子Region会被HMaster分配到相应的HRegionServer 上，使得原先1个Region的压力得以分流到2个Region上

Spark学习技巧

2022-01-13

1.2K0

漫画全面解释Spark企业调优点

存储 hbase 云数据库 Redis node.js 大数据

一般企业中，物理机器的cpu:内存基本上都是1:4+，比如机器24core，一般有128GB及以上内存；48core，一般有256GB及以上内存。

Spark学习技巧

2021-03-05

4130

HBase运维：如何逆向修复HBase元数据表

hbase TDSQL MySQL 版 javascript html 运维

最近知识星球有人问浪尖，自己的hbase集群元数据丢失了，但是数据还在，是否能够修复，其实这种情况下利用数据的hfile去修复元数据很常见，也有很多时候我们是生成hfile加载进hbase。

Spark学习技巧

2021-03-05

3.2K0

Kylin 最佳实践｜爱奇艺如何处理千亿级数据

hbase TDSQL MySQL 版 hive sql 数据库

爱奇艺发展的大体时间线，2015 年前以离线分析为主，技术上是经典的 Hive + MySQL 方案，但缺点是报表查询比较慢，而且数据时效性差；2016 - 2018 年致力于将查询耗时提升至交互式级别，分为两大类：Kylin 针对固定报表，在维度比较有限的情况下，通过一个预处理，TB 级别数据延时能在秒级，而 Impala 则针对 Ad-hoc 类场景，可以查询任意明细数据；2018 年以后从离线往实时去发力，其中 Kudu 支持实时插入和更新，Druid 支持事件流场景。

Spark学习技巧

2021-03-05

5410

【开发实践】美团为什么开发 Kylin On Druid（上）？

apache hbase TDSQL MySQL 版存储 hadoop

在大数据分析领域，Apache Kylin 和 Apache Druid （incubating）是两个普遍使用的 OLAP 引擎，都具有支持在超大数据上进行快速查询的能力。在一些对大数据分析非常依赖的企业，往往同时运行着 Kylin 和 Druid 两套系统，服务于不同的业务场景。

Spark学习技巧

2021-03-05

7560

【开发实践】美团为什么开发 Kylin On Druid（下）？

云数据库 SQL Server 数据库 sql 存储 hbase

在上篇文章里，我们比较了 Kylin 和 Druid 这两个重要的 OLAP引擎的特点，也分析了 Kylin on HBase 的不足，得出了使用 Druid 代替 HBase 作为 Kylin 存储的方案，最后介绍了美团开发的 Kylin on Druid 的架构和流程。在这篇文章中，我们接着上篇文章，将介绍如何使用 Kylin on Druid，Kylin on Druid 的性能表现，以及在使用过程中总结的一些经验。

Spark学习技巧

2021-03-05

3830

Apache Kylin 在中通快递的实践

apache 网站 hbase TDSQL MySQL 版 api

Apache Kylin 在中通是如何落地的，又是怎样赋能中通快递实现 OLAP 分析能力起飞的？本文从多方面对比了 Presto 和 Kylin 的优缺点，并从业务场景、调度整合、监控系统、运维调优、源码和二次开发等多个角度进行了阐述。

Spark学习技巧

2021-03-05

8190

Hbase Bulkload 原理｜面试必备

hbase TDSQL MySQL 版 mapreduce yarn node.js

下面假设我们有一个 CSV 文件，是存储用户购买记录的。它一共有三列， order_id，consumer，product。我们需要将这个文件导入到Hbase里，其中 order_id 作为Hbase 的 row key。

Spark学习技巧

2021-03-05

2.3K0

百亿级图数据JanusGraph迁移之旅

数据结构 hbase TDSQL MySQL 版 spark 网站

目前我们的图数据库数据量为顶点 20 亿，边 200 亿的规模。在迁移之前我们使用的 AgensGraph 数据库一个主库四个备库，机器的配置都比较高，256G 内存 SSD 的磁盘，单机数据量为 3T左右。在数据量比较小的情况下 AgensGraph 表现非常稳定优异，我们之前一主一备的情况下支撑了很长一段时间。但随着公司业务的急速发展，图越来越大，占用的磁盘越来越多，对应的查询量也越来越大，随之这种方案的问题就暴露出来了

Spark学习技巧

2020-10-10

2.6K0

基于 Flink 搭建实时个性化营销平台？

flink hbase TDSQL MySQL 版大数据数据分析

在大数据时代，金融科技公司通常借助消费数据来综合评估用户的信用和还款能力。这个过程中，某些中介机构会搜集大量的号并进行“养号”工作，即在一年周期里让这些号形成正常的消费、通讯记录，目的是将这些号“培养”得非常健康，然后卖给有欺诈意向的用户。这类用户通过网上信息提交审核，骗到贷款后就“销声匿迹”了。

Spark学习技巧

2020-08-02

9540

从B+树到LSM树，及LSM树在HBase中的应用

hbase TDSQL MySQL 版数据库 sql

在有代表性的关系型数据库如MySQL、SQL Server、Oracle中，数据存储与索引的基本结构就是我们耳熟能详的B树和B+树。而在一些主流的NoSQL数据库如HBase、Cassandra、LevelDB、RocksDB中，则是使用日志结构合并树（Log-structured Merge Tree，LSM Tree）来组织数据。本文先由B+树来引出对LSM树的介绍，然后说明HBase中是如何运用LSM树的。

Spark学习技巧

2020-07-15

2.1K0

HBase 数据迁移到 Kafka 实战

hbase TDSQL MySQL 版大数据 kafka http

https://www.cnblogs.com/smartloli/p/11521659.html

Spark学习技巧

2020-06-09

7380

从 Spark Streaming 到 Apache Flink：bilibili 实时平台的架构与实践

云数据库 SQL Server hbase TDSQL MySQL 版云数据库 Redis 云计算

摘要：本文由 bilibili 大数据实时平台负责人郑志升分享，基于对 bilibili 实时计算的痛点分析，详细介绍了 bilibili Saber 实时计算平台架构与实践。本次分享主要围绕以下四个方面：

Spark学习技巧

2020-02-26

1.5K0

ZB级的大数据探索与应用实践【附PPT】

大数据数据分析 spark 风控平台 hbase

据报告显示到2025年，全球将产生180ZB的数据。这些海量的数据正是企业进行数字化转型的核心生产因素，然而真正被有效存储、使用和分析的数据不到百分之十。如何从ZB级的数据中寻找分析有价值的信息并回馈到业务发展才是关键。11月30日UCan技术沙龙大数据专场（北京站）邀请了5位资深大数据技术专家分享他们对大数据的探索和应用实践。

Spark学习技巧

2019-12-25

1K0

再谈|Rowkey设计_HBase表设计

hbase TDSQL MySQL 版 javascript unix

HBase的rowkey设计可以说是使用HBase最为重要的事情，直接影响到HBase的性能，常见的RowKey的设计问题及对应访问为：

Spark学习技巧

2019-12-15

1.2K0

通识 | 数据结构图如何利用大数据框架存

存储 hbase TDSQL MySQL 版大数据数据结构

很久没写过文章了，今天就分享一下大数据中的图数据库Janusgraph的存储模型。希望对想做大数据图存储的粉丝有一定的帮助吧。由于没时间画图，所以图片来源于网络和Janusgraph官网，感谢各位作者的贡献。

Spark学习技巧

2019-11-07

7050

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态