【Spark研究】Lambda表达式让Spark编程更容易

近日,Databricks官方网站发表了一篇博文,用示例说明了lambda表达式如何让Spark编程更容易。文章开头即指出,Spark的主要目标之一是使编写大数据应用程序更容易。Spark的Scala和Python接口一直很简洁,但由于缺少函数表达式,Java API有些冗长。因此,随着Java 8增加了lambda表达式,他们更新了Spark的API。Spark 1.0将提供Java 8 lambda表达式支持,而且与Java的旧版本保持兼容。该版本将在5月初发布。

文中举了两个例子,用于说明Java 8如何使代码更简洁。第一个例子是使用Spark的filter和count算子在一个日志文件中查找包含“error”的行。这很容易实现,但在Java 7中需要向filter传递一个Function对象,这有些笨拙:

JavaRDD<String> lines = sc.textFile("hdfs://log.txt").filter(

new Function<String, Boolean>() {

public Boolean call(String s) {

return s.contains("error");

}

});

long numErrors = lines.count();

在Java 8中,代码更为简洁:

JavaRDD<String> lines = sc.textFile("hdfs://log.txt")

.filter(s -> s.contains("error"));

long numErrors = lines.count();

当代码更长时,对比更明显。文中给出了第二个例子,读取一个文件,得出其中的单词数。在Java 7中,实现代码如下:

JavaRDD<String> lines = sc.textFile("hdfs://log.txt");

//将每一行映射成多个单词

JavaRDD<String> words = lines.flatMap(

new FlatMapFunction<String, String>() {

public Iterable<String> call(String line) {

return Arrays.asList(line.split(" "));

}

});

// 将单词转换成(word, 1)对

JavaPairRDD<String, Integer> ones = words.mapToPair(

new PairFunction<String, String, Integer>() {

public Tuple2<String, Integer> call(String w) {

return new Tuple2<String, Integer>(w, 1);

}

});

// 分组并按键值添加对以产生计数

JavaPairRDD<String, Integer> counts = ones.reduceByKey(

new Function2<Integer, Integer, Integer>() {

public Integer call(Integer i1, Integer i2) {

return i1 + i2;

}

});

counts.saveAsTextFile("hdfs://counts.txt");

而在Java 8中,该程序只需要几行代码:

JavaRDD<String> lines = sc.textFile("hdfs://log.txt");

JavaRDD<String> words =

lines.flatMap(line -> Arrays.asList(line.split(" ")));

JavaPairRDD<String, Integer> counts =

words.mapToPair(w -> new Tuple2<String, Integer>(w, 1))

.reduceByKey((x, y) -> x + y);

counts.saveAsTextFile("hdfs://counts.txt");

要了解更多关于Spark的信息,可以查看官方文档。Spark只需下载解压即可运行,而无须安装。感谢辛湜对本文的审校。(作者:马德奎,摘自:InfoQ)

原文发布于微信公众号 - 数据科学与人工智能(DS_AI_shujuren)

原文发表时间:2015-11-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏听雨堂

从MapX到MapXtreme2004[10]-根据zoom值修改显示范围

        原来在Mapx中只需要修改zoom值即可,现在也是一样。虽然map对象有setview方法,但似乎不太好用,因为需要coordsys。     ...

19370
来自专栏拭心的安卓进阶之路

Android 进阶6:两种序列化方式 Serializable 和 Parcelable

什么是序列化 我们总是说着或者听说着“序列化”,它的定义是什么呢? 序列化 (Serialization)将对象的状态信息转换为可以存储或传输的形式的过程。在...

33250
来自专栏恰童鞋骚年

Hadoop学习笔记—7.计数器与自定义计数器

  在上图所示中,计数器有19个,分为四个组:File Output Format Counters、FileSystemCounters、File Input...

12320
来自专栏浪淘沙

KafKa 代码实现

23830
来自专栏个人分享

Spark常用函数(源码阅读六)

  源码层面整理下我们常用的操作RDD数据处理与分析的函数,从而能更好的应用于工作中。

12620
来自专栏猿天地

spring-data-mongodb mapreduce使用

今天主要介绍下在框架中如何使用mapreduce,不涉及到mapreduce的使用讲解 这边主要的js代码都将写在js文件中,放在classpath下面统一维护...

44960
来自专栏清晨我上码

异步任务执行的设计模式

28030
来自专栏扎心了老铁

java使用spark/spark-sql处理schema数据

1、spark是什么? Spark是基于内存计算的大数据并行计算框架。 1.1 Spark基于内存计算 相比于MapReduce基于IO计算,提高了在大数据环境...

36850
来自专栏码字搬砖

Spark Streaming 中使用 zookeeper 保存 offset 并重用 Java版

最近中使用spark Streaming +kafka,由于涉及到金额,所以需要保证at only one, 而网上关于java版的kafka offset...

34920
来自专栏Spark学习技巧

Spark源码系列之foreach和foreachPartition的区别

一,基本使用 1,RDD分布式数据集的五大特性 1),A list of partitions(一系列的分区) 2),A function for comput...

55670

扫码关注云+社区

领取腾讯云代金券