【Spark研究】Lambda表达式让Spark编程更容易

陆勤_数据人网

发布于 2018-02-27 15:01:43

1.1K0

发布于 2018-02-27 15:01:43

近日，Databricks官方网站发表了一篇博文，用示例说明了lambda表达式如何让Spark编程更容易。文章开头即指出，Spark的主要目标之一是使编写大数据应用程序更容易。Spark的Scala和Python接口一直很简洁，但由于缺少函数表达式，Java API有些冗长。因此，随着Java 8增加了lambda表达式，他们更新了Spark的API。Spark 1.0将提供Java 8 lambda表达式支持，而且与Java的旧版本保持兼容。该版本将在5月初发布。

文中举了两个例子，用于说明Java 8如何使代码更简洁。第一个例子是使用Spark的filter和count算子在一个日志文件中查找包含“error”的行。这很容易实现，但在Java 7中需要向filter传递一个Function对象，这有些笨拙：

JavaRDD<String> lines = sc.textFile("hdfs://log.txt").filter(

new Function<String, Boolean>() {

public Boolean call(String s) {

return s.contains("error");

}

});

long numErrors = lines.count();

在Java 8中，代码更为简洁：

JavaRDD<String> lines = sc.textFile("hdfs://log.txt")

.filter(s -> s.contains("error"));

long numErrors = lines.count();

当代码更长时，对比更明显。文中给出了第二个例子，读取一个文件，得出其中的单词数。在Java 7中，实现代码如下：

JavaRDD<String> lines = sc.textFile("hdfs://log.txt");

//将每一行映射成多个单词

JavaRDD<String> words = lines.flatMap(

new FlatMapFunction<String, String>() {

public Iterable<String> call(String line) {

return Arrays.asList(line.split(" "));

}

});

// 将单词转换成(word, 1)对

JavaPairRDD<String, Integer> ones = words.mapToPair(

new PairFunction<String, String, Integer>() {

public Tuple2<String, Integer> call(String w) {

return new Tuple2<String, Integer>(w, 1);

}

});

// 分组并按键值添加对以产生计数

JavaPairRDD<String, Integer> counts = ones.reduceByKey(

new Function2<Integer, Integer, Integer>() {

public Integer call(Integer i1, Integer i2) {

return i1 + i2;

}

});

counts.saveAsTextFile("hdfs://counts.txt");

而在Java 8中，该程序只需要几行代码：

JavaRDD<String> lines = sc.textFile("hdfs://log.txt");

JavaRDD<String> words =

lines.flatMap(line -> Arrays.asList(line.split(" ")));

JavaPairRDD<String, Integer> counts =

words.mapToPair(w -> new Tuple2<String, Integer>(w, 1))

.reduceByKey((x, y) -> x + y);

counts.saveAsTextFile("hdfs://counts.txt");

要了解更多关于Spark的信息，可以查看官方文档。Spark只需下载解压即可运行，而无须安装。感谢辛湜对本文的审校。(作者:马德奎，摘自：InfoQ)

本文参与腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2015-11-28，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自数据科学与人工智能微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体分享计划，欢迎热爱写作的你一起参与！

其他

登录后参与评论

0 条评论

热度

【Spark研究】Lambda表达式让Spark编程更容易

【Spark研究】Lambda表达式让Spark编程更容易

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐