Spark学习技巧

LV1
发表了文章

谈谈ClickHouse性能情况以及相关优化

注意:ClickHouse并非无所不能,查询语句需要不断的调优,可能与查询条件有关,不同的查询条件表是左join还是右join也是很有讲究的

Spark学习技巧
发表了文章

kafka存储结构以及Log清理机制

如上图所示、kafka 中消息是以主题 topic 为基本单位进行归类的,这里的 topic 是逻辑上的概念,实际上在磁盘存储是根据分区存储的,每个主题可以分为...

Spark学习技巧
发表了文章

实战 | flink sql 与微博热搜的碰撞!!!

根据微博目前站内词条消费情况,计算 top 50 消费热度词条,每分钟更新一次,并且按照列表展现给用户。

Spark学习技巧
发表了文章

实时数仓不保障时效还玩个毛?

懒癌患者福利,先说本文结论,通过以下两个指标就已经能监控和判定 90% 数据延迟、乱序问题了。

Spark学习技巧
发表了文章

标签类目体系设计方法论

标签类目体系的设计方法基于“树形结构的标签树”第一性原理,通过识别对象、同一对象数据打通、数据化的事物表达、构建数据类目体系、构建标签类目体系、前后台标签类目体...

Spark学习技巧
发表了文章

聊聊维度建模的灵魂所在——维度表设计

维度表是维度建模的灵魂所在,在维度表设计中碰到的问题(比如维度变化、维度层次、维度一致性、维度整合和拆分等)都会直接关系到维度建模的好坏,因此良好的维表设计就显...

Spark学习技巧
发表了文章

维度建模技术实践——深入事实表

它存储了业务过程中的各种度量和事实,而这些度量和事实正是下游数据使用人员所要关心和分析的对象。

Spark学习技巧
发表了文章

Spark处理的一些业务场景

Sparksql在处理一些具体的业务场景的时候,可以通过算子操作,或者RDD之间的转换来完成负责业务的数据处理,在日常做需求的时候,整理出来一下几个经典的业务场...

Spark学习技巧
发表了文章

浅谈数仓模型(维度建模)

数据仓库的核心是展现层和提供优质的服务。ETL 及其规范、分层等所做的一切都是为了一个更清晰易用的展现层。

Spark学习技巧
发表了文章

浅谈Hbase在用户画像上的应用

用户画像,即用户信息标签化,是大数据精细化运营和精准营销服务的基础。设计从基础设施建设到应用层面,主要有数据平台搭建及运维管理、数据仓库开发、上层应用的统计分析...

Spark学习技巧
发表了文章

《稀缺:我们是如何陷入贫穷与忙碌的》读后感

当你拆东墙补西墙,不停地还贷款,最后发现自己还是在原地兜圈子,捉肘见襟的状况根本没有改变? 如果出现这种情况,说明你已经陷入了“稀缺陷阱”。这时候,你就像在玩儿...

Spark学习技巧
发表了文章

高并发场景下disk io 引发的高时延问题排查

该系统属于长连接消息推送业务,某节假日推送消息的流量突增几倍,顺时出现比平日多出几倍的消息量等待下推。事后,发现生产消息的业务服务端因为某 bug ,把大量消息...

Spark学习技巧
发表了文章

一文了解 ClickHouse 的向量化执行

ClickHouse在计算层做了非常细致的工作,竭尽所能榨干硬件能力,提升查询速度。它实现了单机多核并行、分布式计算、向量化执行与SIMD指令、代码生成等多种重...

Spark学习技巧
发表了文章

数据本地性对 Spark 生产作业容错能力的负面影响

作者:Kent_Yao 链接:https://www.jianshu.com/p/72ffaa10220

Spark学习技巧
发表了文章

数据湖VS数据仓库?湖仓一体了解一下

导读:随着近几年数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论就一直不断。有人说数据湖是下一代大数据平台,各大云厂商也在纷纷的提出自己的数据湖解决方案...

Spark学习技巧
发表了文章

如何使用 Kafka、MongoDB 和 Maxwell’s Daemon 构建 SQL 数据库的审计系统

审计日志系统有很多应用场景,而不仅仅是存储用于审计目的的数据。除了合规性和安全性的目的之外,它还能够被市场营销团队使用,以便于锁定目标用户,也可以用...

Spark学习技巧
发表了文章

快手基于 Flink 的持续优化与实践

摘要:本文由快手实时计算负责人董亭亭分享,主要介绍快手基于 Flink 的持续优化与实践的介绍。内容包括:

Spark学习技巧
发表了文章

Kafka HA Kafka一致性重要机制之ISR

当某个topic的replication-factor为N且N大于1时,每个Partition都会有N个副本(Replica)。kafka的replica包含l...

Spark学习技巧
发表了文章

Impala在网易大数据的优化和实践

导读:网易大数据平台的底层数据查询引擎,选用了Impala作为OLAP查询引擎,不但支撑了网易大数据的交互式查询与自助分析,还为外部客户提供了商业化的产品与服务...

Spark学习技巧
发表了文章

漫画全面解释Spark企业调优点

一般企业中,物理机器的cpu:内存基本上都是1:4+,比如机器24core,一般有128GB及以上内存;48core,一般有256GB及以上内存。

Spark学习技巧

个人简介

个人成就

扫码关注云+社区

领取腾讯云代金券