首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >基于扫描的Apache火花操作

基于扫描的Apache火花操作
EN

Data Science用户
提问于 2015-10-12 15:23:01
回答 1查看 542关注 0票数 4

在查看关于RDDs/Apache Spark的第一篇论文时,我发现一份声明说,"RDDs在没有足够内存存储的情况下会优雅地退化,只要它们只用于基于扫描的操作“。

什么是RDDs上下文中基于扫描的操作,哪些火花中的变换是基于扫描的操作?

EN

回答 1

Data Science用户

回答已采纳

发布于 2015-10-13 22:22:02

基于扫描的操作基本上是需要对RDD上的谓词进行评估的所有操作。

在其他术语中,每次创建需要计算谓词的RDD或DataFrame时,例如执行过滤器、在每个案例类上映射或甚至解释方法,都将被视为基于扫描的操作。

为了更清楚,让我们回顾一下谓词的定义。

谓词或函数谓词是一个逻辑符号,可应用于对象术语以产生另一个对象术语。

函数谓词有时也称为映射,但该术语也有其他含义。

例子:

代码语言:javascript
运行
复制
// scan based transformation
rdd.filter(!_.contains("#")) // here the predicate is !_.contains("#")

// another scan based transformation
rdd.filter(myfunc) // myfunc is a boolean function

// a third also trivial scan based transformation followed by a non scan based one.
rdd.map(myfunc2) 
   .reduce(myfunc3)

如果您想了解火花内部是如何工作的,我建议您观看由Databricks制作的关于主题的介绍性

票数 3
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/8402

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档