首页
学习
活动
专区
工具
TVP
发布

牛肉圆粉不加葱

专栏作者
94
文章
84185
阅读量
19
订阅数
Spark Join 源码剖析①
在 Spark SQL 中,参与 Join 操作的两张表分别被称为流式表(StreamTable)和构件表(BuildTable),不同表的角色在 Spark SQL 中会通过一定的策略进行设定。通常来讲,系统会将大表设置为 StreamTable,小表设置为 BuildTable。流式表的迭代器为 streamIter,构建表的迭代器为 buildIter。遍历 streamIter 的每一条记录,然后在 buildIter 中查找匹配的记录。这个查找过程称为 build 过程。每次 build 操作的结果为一条 JoinedRow(A, B),其中 A 来自 streamedIter,B 来自 buildIter。
codingforfun
2022-05-23
6700
Calcite - 看懂 Parser.jj 中的 SqlSelect
javacc 会根据 parser.jj 中定义的相互穿插的 Token、Java 代码来自动生成 org.apache.calcite.sql.parser.impl.SqlParserImpl 的代码。本文期望以一个简单的 Select 语句为例来说清楚 Sql 语句、Sql 语法定义、SqlParser 之间的关系。
codingforfun
2021-05-17
1.8K0
可能是全网最深度的 Apache Kylin 查询剖析
该过程主要封装在 OLAPToEnumerableConverter#implement 中,主要流程如下:
codingforfun
2019-05-31
1.7K0
Spark Task 内存管理(on-heap&off-heap)
在之前的文章中(Spark 新旧内存管理方案(上)及Spark 新旧内存管理方案(下)),我从粗粒度上对 Spark 内存管理进行了剖析,但我们依然会有类似这样的疑问,在 task 中,shuffle 时使用的内存具体是怎么分配的?是在堆上分配的还是堆外分配的?堆上如何分配、堆外又如何分配?
codingforfun
2018-08-24
9860
使用 JGibbLDA 进行 LDA 模型训练及主题分布预测
最近新闻个性化推荐项目中用到 LDA 来确定各个新闻的主题分布,我优先使用了 Spark Mllib LDA,发现并不理想,主要表现在极吃内存且计算慢,所以打算暂时放弃之。优先使用 Spark LDA 的主要原因是希望和能和 Spark Streaming 结合在一起进行实时预测。所以在考察新方案时优先考虑 Java 实现的 LDA 开源版本,之后发现了 JGibbLDA,下面从使用角度进行简单介绍
codingforfun
2018-08-24
1.3K0
[7] - trait
这是我以前在知乎上看到关于类继承作用的回答,虽不完全正确,却十分明确的表达出了好的代码应避免类继承而尽量使用类组合。Scala 显然也非常赞同这一点,以至于有了 trait,又叫做特质。当我们定义特质时,应该要遵循这样的原则:一个 trait 只干一件事,如果要干多件事,就定义多个 trait,然后使用一个类来 extends 这些 traits
codingforfun
2018-08-24
3230
java.lang.NoClassDefFoundError: org/apache/kafka/common/message/KafkaLZ4BlockOutputStream
在spark-shell中执行streaming application时,频繁出现以下错误。但是相同的代码在之前执行成功并无任务错误,集群以及spark的配置都没有任何改动
codingforfun
2018-08-24
1.6K0
没有更多了
社区活动
Python精品学习库
代码在线跑,知识轻松学
【玩转EdgeOne】征文进行中
限时免费体验,发文即有奖~
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品·最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档