首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Spark入门-常用函数汇总

Photo by Simon Migaj from Pexels

Spark 是一个分布式的计算系统,而且函数式编程风格使在Spark上开发任务变得更有效率。

参加工作后使用Spark开发维护了四个算法,虽然算法不同但Spark代码中所用的几个函数却一样。对于新手入门Spark编程,掌握这几个函数就够了。

在介绍这几个函数之前,先介绍Spark最重要的两个概念。

1. RDD,即分布式数据集合

就相当于是把数据分成几份,分别存储在不同的机器上。很多操作是作用在数据集的单个元素上,所以可以让机器对各自拥有的数据做处理就行,这就大大加快了程序运行的时间。

2. 惰性求值

Spark操作分为两类,一是转化操作,二是行动操作。只有当出现行动操作时前面的转化操作才会被真正执行,而且不会将中间状态的数据保存在内存中。

比如有两个操作,大致表述成这样: ,这里就暂时让作为执行操作存在。若是Python,则都会占用内存资源,但在Spark中却不是的。当计算完后,就会被踢出去,而之后,也会被踢出去,这就节省了大量的资源。

当然,若是你希望保留某个中间值以避免重复计算,Spark也提供支持函数。

常用函数

最基本的二个转化操作是 map、filter。

map 的作用是获得需要的字段或对单个元素进行操作。比如类型的数据-即每一条记录有三个字段,每个字段的类型是长整型。我们只需要保留第一个字段,并转化成字符串类型,那么我们可以用过 来实现。

filter 的作用是过滤掉不需要的数据。比如我们只想保留上述数据集中第一个字段为正数的数据,那可以通过来实现。

有时我们需要合并两份相同类型的数据集,通过即可完成。

接下来介绍两个强大并且常用的函数 flatMap 和 reduceByKey。

flatMap 的作用是把一份数据集拆散压扁,常常和 split 函数共同使用。比如我们现在有一份数据,其中有些元素是以逗号分隔的字符,我们希望每一个被分隔的字符都能做为独立的数据存在。在 Spark 中我们只需要这么做:。将字符转化成一个数组,这和其它语言中一样,然后 flatMap 会把数组中每一个元素拆出来。

reduceByKey 是一个聚合函数,它会对拥有相同 key 的元素进行某些操作。像可以通过调整字段的顺序来指定 key。

接着上面的函数讲,拆完之后,若是想统计每个字符出现的次数,我们就可能通过 reduceByKey 来实现。使用即可完成此操作。map 的目的是让每个字符作为一个 key ,然后 reduceByKey 来计数,a、b就是每个key当前统计的数量。

由于是分布式数据集,reduceByKey 会在各个机器上对当前的数据做计数操作,然后再合并各个机器上的数据。

在现实生活中,很多数据都是以 key-value 结构存在的,而有些操作只需要对value进行即可,比如.map(x => (x._1, x._2.split(“,”)).mapValues( x => x.split(“,”))```。后一种方式只对 value 做操作,而忽略 key。

同样,我们可以使用 flatMapValues 对value进行扁平化操作。

排序是始终绕不开的话题。Spark 中 可以使用 sortBy 来进行排序。比如上文中提到的类型,若是需要按第三个字段来降序排序,我们可以这么做: 。

最常见的执行操作是 ,它的作用仅仅是触发执行操作用,让前面的转化操作行动起来。比如类型的数据集,我们可以通过来打印所有的字符的数量。若是拿掉 collect() 这个操作,该语句就不会被执行。

与collect有共样作用的函数是 take,但take只用获取你需要数据的元素,比如则最多会打印五条记录。

Spark为了节省内存资源,执行操作后不会保留中间数据,这可能会带来重复计算的问题。Spakr为了解决这个问题,提供了一个函数:cache,它能帮助你保留中间数据。

结语

由于采用函数式编程,代码会变得更便捷,但这可能会让新手看得云里雾里,觉得“难”就产生了抗拒,但其实只要熟悉了上面的几个函数后,就会觉得自己怎么没早点学Spark。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180805G1FYT500?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券