腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
牛肉圆粉不加葱
专栏作者
举报
94
文章
84185
阅读量
19
订阅数
订阅专栏
申请加入专栏
全部文章
其他
spark
java
人工智能
sql
yarn
编程算法
jvm
api
apache
缓存
微信
python
scala
linux
apt-get
存储
hive
zookeeper
rpc
大数据
数据结构
https
机器学习
javascript
node.js
css
json
ide
github
神经网络
深度学习
批量计算
TDSQL MySQL 版
http
网络安全
markdown
安全
机器人
数据分析
数据处理
windows
hbase
kafka
task
搜索文章
搜索
搜索
关闭
Spark Join 源码剖析①
spark
linux
java
在 Spark SQL 中,参与 Join 操作的两张表分别被称为流式表(StreamTable)和构件表(BuildTable),不同表的角色在 Spark SQL 中会通过一定的策略进行设定。通常来讲,系统会将大表设置为 StreamTable,小表设置为 BuildTable。流式表的迭代器为 streamIter,构建表的迭代器为 buildIter。遍历 streamIter 的每一条记录,然后在 buildIter 中查找匹配的记录。这个查找过程称为 build 过程。每次 build 操作的结果为一条 JoinedRow(A, B),其中 A 来自 streamedIter,B 来自 buildIter。
codingforfun
2022-05-23
670
0
Calcite - 看懂 Parser.jj 中的 SqlSelect
sql
java
数据分析
javacc 会根据 parser.jj 中定义的相互穿插的 Token、Java 代码来自动生成 org.apache.calcite.sql.parser.impl.SqlParserImpl 的代码。本文期望以一个简单的 Select 语句为例来说清楚 Sql 语句、Sql 语法定义、SqlParser 之间的关系。
codingforfun
2021-05-17
1.8K
0
可能是全网最深度的 Apache Kylin 查询剖析
编程算法
java
apt-get
sql
该过程主要封装在 OLAPToEnumerableConverter#implement 中,主要流程如下:
codingforfun
2019-05-31
1.7K
0
Spark Task 内存管理(on-heap&off-heap)
spark
jvm
java
在之前的文章中(Spark 新旧内存管理方案(上)及Spark 新旧内存管理方案(下)),我从粗粒度上对 Spark 内存管理进行了剖析,但我们依然会有类似这样的疑问,在 task 中,shuffle 时使用的内存具体是怎么分配的?是在堆上分配的还是堆外分配的?堆上如何分配、堆外又如何分配?
codingforfun
2018-08-24
986
0
使用 JGibbLDA 进行 LDA 模型训练及主题分布预测
spark
java
最近新闻个性化推荐项目中用到 LDA 来确定各个新闻的主题分布,我优先使用了 Spark Mllib LDA,发现并不理想,主要表现在极吃内存且计算慢,所以打算暂时放弃之。优先使用 Spark LDA 的主要原因是希望和能和 Spark Streaming 结合在一起进行实时预测。所以在考察新方案时优先考虑 Java 实现的 LDA 开源版本,之后发现了 JGibbLDA,下面从使用角度进行简单介绍
codingforfun
2018-08-24
1.3K
0
[7] - trait
人工智能
scala
java
这是我以前在知乎上看到关于类继承作用的回答,虽不完全正确,却十分明确的表达出了好的代码应避免类继承而尽量使用类组合。Scala 显然也非常赞同这一点,以至于有了 trait,又叫做特质。当我们定义特质时,应该要遵循这样的原则:一个 trait 只干一件事,如果要干多件事,就定义多个 trait,然后使用一个类来 extends 这些 traits
codingforfun
2018-08-24
323
0
java.lang.NoClassDefFoundError: org/apache/kafka/common/message/KafkaLZ4BlockOutputStream
java
apache
spark
在spark-shell中执行streaming application时,频繁出现以下错误。但是相同的代码在之前执行成功并无任务错误,集群以及spark的配置都没有任何改动
codingforfun
2018-08-24
1.6K
0
没有更多了
社区活动
Python精品学习库
代码在线跑,知识轻松学
点击查看
【玩转EdgeOne】征文进行中
限时免费体验,发文即有奖~
立即参加
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品·最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档