Spark学习技巧

本公众号主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到hadoop家族。
688 篇文章
411.7K 次阅读
212 人订阅

全部文章

Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

谈谈ClickHouse性能情况以及相关优化

注意:ClickHouse并非无所不能,查询语句需要不断的调优,可能与查询条件有关,不同的查询条件表是左join还是右join也是很有讲究的

6230
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

kafka存储结构以及Log清理机制

如上图所示、kafka 中消息是以主题 topic 为基本单位进行归类的,这里的 topic 是逻辑上的概念,实际上在磁盘存储是根据分区存储的,每个主题可以分为...

8430
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

实战 | flink sql 与微博热搜的碰撞!!!

根据微博目前站内词条消费情况,计算 top 50 消费热度词条,每分钟更新一次,并且按照列表展现给用户。

6620
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

实时数仓不保障时效还玩个毛?

懒癌患者福利,先说本文结论,通过以下两个指标就已经能监控和判定 90% 数据延迟、乱序问题了。

8520
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

标签类目体系设计方法论

标签类目体系的设计方法基于“树形结构的标签树”第一性原理,通过识别对象、同一对象数据打通、数据化的事物表达、构建数据类目体系、构建标签类目体系、前后台标签类目体...

10110
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

聊聊维度建模的灵魂所在——维度表设计

维度表是维度建模的灵魂所在,在维度表设计中碰到的问题(比如维度变化、维度层次、维度一致性、维度整合和拆分等)都会直接关系到维度建模的好坏,因此良好的维表设计就显...

7630
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

维度建模技术实践——深入事实表

它存储了业务过程中的各种度量和事实,而这些度量和事实正是下游数据使用人员所要关心和分析的对象。

6220
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

Spark处理的一些业务场景

Sparksql在处理一些具体的业务场景的时候,可以通过算子操作,或者RDD之间的转换来完成负责业务的数据处理,在日常做需求的时候,整理出来一下几个经典的业务场...

7610
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

浅谈数仓模型(维度建模)

数据仓库的核心是展现层和提供优质的服务。ETL 及其规范、分层等所做的一切都是为了一个更清晰易用的展现层。

10530
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

浅谈Hbase在用户画像上的应用

用户画像,即用户信息标签化,是大数据精细化运营和精准营销服务的基础。设计从基础设施建设到应用层面,主要有数据平台搭建及运维管理、数据仓库开发、上层应用的统计分析...

9930
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

《稀缺:我们是如何陷入贫穷与忙碌的》读后感

当你拆东墙补西墙,不停地还贷款,最后发现自己还是在原地兜圈子,捉肘见襟的状况根本没有改变? 如果出现这种情况,说明你已经陷入了“稀缺陷阱”。这时候,你就像在玩儿...

7940
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

高并发场景下disk io 引发的高时延问题排查

该系统属于长连接消息推送业务,某节假日推送消息的流量突增几倍,顺时出现比平日多出几倍的消息量等待下推。事后,发现生产消息的业务服务端因为某 bug ,把大量消息...

11150
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

一文了解 ClickHouse 的向量化执行

ClickHouse在计算层做了非常细致的工作,竭尽所能榨干硬件能力,提升查询速度。它实现了单机多核并行、分布式计算、向量化执行与SIMD指令、代码生成等多种重...

10930
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

数据本地性对 Spark 生产作业容错能力的负面影响

作者:Kent_Yao 链接:https://www.jianshu.com/p/72ffaa10220

11820
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

数据湖VS数据仓库?湖仓一体了解一下

导读:随着近几年数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论就一直不断。有人说数据湖是下一代大数据平台,各大云厂商也在纷纷的提出自己的数据湖解决方案...

31110
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

如何使用 Kafka、MongoDB 和 Maxwell’s Daemon 构建 SQL 数据库的审计系统

审计日志系统有很多应用场景,而不仅仅是存储用于审计目的的数据。除了合规性和安全性的目的之外,它还能够被市场营销团队使用,以便于锁定目标用户,也可以用...

16830
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

快手基于 Flink 的持续优化与实践

摘要:本文由快手实时计算负责人董亭亭分享,主要介绍快手基于 Flink 的持续优化与实践的介绍。内容包括:

10420
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

Kafka HA Kafka一致性重要机制之ISR

当某个topic的replication-factor为N且N大于1时,每个Partition都会有N个副本(Replica)。kafka的replica包含l...

10810
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

Impala在网易大数据的优化和实践

导读:网易大数据平台的底层数据查询引擎,选用了Impala作为OLAP查询引擎,不但支撑了网易大数据的交互式查询与自助分析,还为外部客户提供了商业化的产品与服务...

17210
Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

漫画全面解释Spark企业调优点

一般企业中,物理机器的cpu:内存基本上都是1:4+,比如机器24core,一般有128GB及以上内存;48core,一般有256GB及以上内存。

11830

扫码关注云+社区

领取腾讯云代金券