前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >spark transformation与action操作函数

spark transformation与action操作函数

作者头像
用户3003813
发布2018-09-06 13:13:52
4500
发布2018-09-06 13:13:52
举报
文章被收录于专栏:个人分享个人分享

一、Transformation

map(func) 返回一个新的分布式数据集,由每个原元素经过函数处理后的新元素组成

filter(func) 返回一个新的数据集,经过fun函数处理后返回值为true的原元素组成

flatMap(func) 类似于map,但每个输入元素会被映射为0个或多个输出元素

mapPartitions(func)  类似于map,对RDD的每个分区起作用

intersection(otherDataset) 求两个RDD的交集

distinct([numTasks]) 返回一个包含源数据集中所有不重复元素的新数据集

groupByKey([numTasks]) 在一个由(K,V)对组成的数据集上调用,返回一个(K,Seq[v])对组成的数据集。

reduceByKey(func,[numTasks]) 在一个(K,V)对组成的数据集上调用,返回一个(K,V)对的数据集

sortByKey([ascending],[numTasks]) 在类型为(K,V)的数据集上调用,返回以K为键进行排序的(K,V)对数据集。

二、Action操作

reduce(func) 通过函数func聚集结果集中的所有元素

collect() 在Driver的程序中,以数组的形式返回数据集中的所有数据。

count() 返回元素的个数

foreach(func) 在数据集的每一个元素上,运行函数func,通常用于更新一个累加器变量,或者和外部存储系统进行交互。

执行transformation操作时,spark并没有开始计算,只是将执行的任务封装成DAG,直到碰到action操作时 才真正提交集群 开始计算。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2015-10-14 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档