开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

使用scala基于'A'，'E'，'I'，'O'，'U‘元音在Spark(Core using RDD) WordCount程序中创建5分区文件

在Spark中使用Scala基于元音字母'A'，'E'，'I'，'O'，'U'来创建5个分区文件的WordCount程序，可以按照以下步骤进行：

导入必要的Spark库和类：

import org.apache.spark.{SparkConf, SparkContext}

创建SparkConf对象，设置应用程序的名称：

val conf = new SparkConf().setAppName("WordCount")

创建SparkContext对象：

val sc = new SparkContext(conf)

定义输入数据：

val input = sc.textFile("input.txt")

这里假设输入数据存储在名为"input.txt"的文件中。

对输入数据进行处理，按照元音字母进行过滤和分区：

val vowels = Set('A', 'E', 'I', 'O', 'U')
val filtered = input.flatMap(line => line.split(" "))
                    .filter(word => vowels.contains(word.charAt(0).toUpper))
                    .map(word => (word, 1))
                    .partitionBy(new org.apache.spark.HashPartitioner(5))

首先使用flatMap将每行文本拆分为单词，然后使用filter函数过滤以元音字母开头的单词。接下来，使用map函数将每个单词映射为键值对，其中键为单词本身，值为1。最后，使用partitionBy函数将数据按照HashPartitioner进行分区，分为5个分区。

对分区后的数据进行统计计数：

val wordCounts = filtered.reduceByKey(_ + _)

使用reduceByKey函数对分区后的数据进行按键聚合，计算每个单词的出现次数。

输出结果：

wordCounts.saveAsTextFile("output")

将统计结果保存到名为"output"的文件夹中。

完整的代码示例：

import org.apache.spark.{SparkConf, SparkContext}

object WordCount {
  def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("WordCount")
    val sc = new SparkContext(conf)

    val input = sc.textFile("input.txt")
    val vowels = Set('A', 'E', 'I', 'O', 'U')
    val filtered = input.flatMap(line => line.split(" "))
                        .filter(word => vowels.contains(word.charAt(0).toUpper))
                        .map(word => (word, 1))
                        .partitionBy(new org.apache.spark.HashPartitioner(5))

    val wordCounts = filtered.reduceByKey(_ + _)
    wordCounts.saveAsTextFile("output")

    sc.stop()
  }
}

在这个示例中，我们使用了Spark的核心API（RDD）来实现WordCount程序，并按照元音字母进行了分区。这个程序可以应用于文本数据中以元音字母开头的单词的统计分析。

腾讯云相关产品和产品介绍链接地址：

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Spark Core 学习笔记

（*）Mapreduce的缺点不足：核心shuffle-》产生大量的I/O操作 2：特点（1）speed（快）（...开发一个WordCount程序：（词频统计） scala> sc.textFile("hdfs://bigdata02:9000/input/words").flatMap(x=>x.split(...roughly 3.141956357097818 （3）使用IDEA开发程序：WordCount （1）Java版本 bin/spark-submit --master...执行原理分析 1、分析WordCount程序处理过程 2、Spark提交任务的流程：类似Yarn调度任务的过程补充： spark程序的本地运行（Hadoop...，占用了内存的大小文件太大的时候，不会全部放到内存中，实际文件大小30M，放到内存中达到90M：因为写入的文件当中存放的是二进制，而读取到内存中以后，使用Java对象序列化方式

2.1K2 0

BigData--大数据分析引擎Spark

Spark Core中还包含了对弹性分布式数据集(Resilient Distributed DataSet，简称RDD)的API定义。 Spark SQL：是Spark用来操作结构化数据的程序包。...Spark Streaming：是Spark提供的对实时数据进行流式计算的组件。提供了用来操作数据流的API，并且与Spark Core中的 RDD API高度对应。...如果这是一个新的元素,combineByKey()会使用一个叫作createCombiner()的函数来创建那个键对应的累加器的初始值（2）mergeValue: 如果这是一个在处理当前分区之前已经遇到的键...2）collect() 在驱动程序中，以数组的形式返回数据集的所有元素。...五、累加器累加器用来对信息进行聚合，通常在向 Spark传递函数时，比如使用 map() 函数或者用 filter() 传条件时，可以使用驱动器程序中定义的变量，但是集群中运行的每个任务都会得到这些变量的一份新的副本

9031 0

Spark案例库V1.0版

) } } 案例七：广播变量和累加器案例基于Spark框架使用Scala语言编程实现词频统计WordCount程序，将符号数据过滤，并统计出现的次数 -a....在Spark 应用程序中，入口为：SparkContext，必须创建实例对象，加载数据和调度程序执行 val sc: SparkContext = { // 创建SparkConf对象，设置应用相关信息...在Spark 应用程序中，入口为：SparkContext，必须创建实例对象，加载数据和调度程序执行 val sc: SparkContext = { // 创建SparkConf对象，设置应用相关信息...在Spark 应用程序中，入口为：SparkContext，必须创建实例对象，加载数据和调度程序执行 val sc: SparkContext = { // 创建SparkConf对象，设置应用相关信息...在Spark 应用程序中，入口为：SparkContext，必须创建实例对象，加载数据和调度程序执行 val sc: SparkContext = { // 创建SparkConf对象，设置应用相关信息

1.1K3 0

RDD 编程

RDD 创建 2. RDD转换 3. RDD动作 4. 持久化 5. 分区 6....RDD 创建从文件创建 Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ _...分区提高并行度减小通信开销分区原则：分区个数尽量 = 集群CPU核心数创建rdd时指定分区数量 sc.textFile(path, partitionNum) scala> val arr =...(String, Int)] = Array((love,2), (spark,1), (c++,1), (i,2), (michael,1)) scala> wordCount.foreach(println...sbt 编译打包为 jar，spark-submit --class "JSONRead" （有待实践操作）参考：使用Intellij Idea编写Spark应用程序（Scala

4322 0

Spark2.x学习笔记：3、 Spark核心概念RDD

如下图所示，存在2个RDD：RDD1包含3个分区，分别存储在Node1、Node2和Node3的内存中；RDD2也包含3个分区，p1和p2分区存储在Node1和Node2的内存中，p3分区存在在Node3...RDD的数据源也可以存储在HDFS上，数据按照HDFS分布策略进行分区，HDFS中的一个Block对应Spark RDD的一个Partition。...中已经默认将SparkContext类初始化为对象sc，在spark-shell中可以直接使用SparkContext的对象sc。...core-site.xml配置文件中fs.defaultFS默认值是file://，表示本地文件。...SparkContext对象，封装了Spark执行环境信息 2）创建RDD 可以从Scala集合或Hadoop数据集上创建 3）在RDD之上进行转换和action MapReduce只提供了

1.3K10 0

Note_Spark_Day07：Spark SQL(DataFrame是什么和数据分析（案例讲解）)

阶段，采用回溯法，从后向前，依据RDD之间依赖关系，如果是宽依赖，划分一个Stage 每个Stage中都是一组Task任务 RDD中1个分区数据被1个Task处理，1个Task运行1Core... 运行上述程序时，查看WEB UI监控页面发现，某个Stage中有200个Task任务，也就是说RDD有200分区Partition。...原因：在SparkSQL中当Job中产生Shuffle时，默认的分区数（spark.sql.shuffle.partitions ）为200，在实际项目中要合理的设置。...在构建SparkSession实例对象时，设置参数的值好消息：在Spark3.0开始，不用关心参数值，程序自动依据Shuffle时数据量，合理设置分区数目。...附录一、创建Maven模块 1）、Maven 工程结构 2）、POM 文件内容 Maven 工程POM文件中内容（依赖包）： aliyun http

2.2K4 0

SparkCore快速入门系列（5）

WordCount 2.3.3. 创建RDD 2.3.4. 查看该RDD的分区数量 2.3.5....)： Spark中的分区函数，一个是基于哈希的HashPartitioner，另外一个是基于范围的RangePartitioner。...RDD中的所有元素，这个功能必须是可交换且可并联的 collect() 在驱动程序中，以数组的形式返回数据集的所有元素 count() 在驱动程序中，以数组的形式返回数据集的所有元素 first() 返回...RDD分区的原则是使得分区的个数尽量等于集群中的CPU核心(core)数目，这样可以充分利用CPU的计算资源,但是在实际中为了更加充分的压榨CPU的计算资源,会把并行度设置为cpu核数的2~3倍。...) 所以如果分配的核数为多个，且从文件中读取数据创建RDD，即使hdfs文件只有1个切片，最后的Spark的RDD的partition数也有可能是2 2.3.5.

3231 0

【Spark Streaming】Spark Day10：Spark Streaming 学习笔记

分区表中数据源文件系统（HDFS、LocalFS）文本文件数据：JSON格式数据处理 ip地址，转换省份与城市实现：使用DSL编程，可以调用类似SQL语句函数、也可以调用类似RDD...5）、StructuredStreaming SparkSQL框架中针对流式数据处理功能模块从Spark2.0提出来，相对来说，比较优秀，很多公司在使用SparkSQL时，如果有流式数据需要实时处理的话...在Spark框架中各个模块都有自己数据结构，也有自己的程序入口： - SparkCore RDD SparkContext - SparkSQL DataFrame/Dataset SparkSession...以上述词频统计WordCount程序为例，讲解Streaming工作原理。...依据业务需求，调用DStream中转换函数（类似RDD中转换函数） /* TODO: 能对RDD操作的就不要对DStream操作，当调用DStream中某个函数在RDD中也存在，使用针对RDD

1K2 0

BigData--大数据技术之SparkStreaming

依赖（采用scala 2.12.x版本） xml org.apache.spark spark-core...5、DStream转换无状态转化操作上面的Wordcount词频统计代码就是使用的无状态转化操作。...每一批次的存储文件名基于参数中的为”prefix-TIME_IN_MS[.suffix]”. Python中目前不可用。...这和transform() 有些类似，都可以让我们访问任意RDD。在foreachRDD()中，可以重用我们在Spark中实现的所有行动操作。...注意：（1）连接不能写在driver层面；（2）如果写在foreach则每个RDD都创建，得不偿失；（3）增加foreachPartition，在分区创建。

8452 0

Spark 开发环境搭建

1 前言本文是对初始接触 Spark 开发的入门介绍，说明如何搭建一个比较完整的 Spark 开发环境，如何开始应用相关工具，基于如下场景：使用 hadoop HDFS 存储数据；使用 Spark...进行并行计算；使用 Scala 开发应用程序；使用 Sbt 工具对 Scala 代码进行构建管理；其中前两项属于 Spark 计算环境搭建，后两项属于 Scala 编程。...scala> rdd2.count() res3: Long = 289 scala> :quit $ Spark 2.0 后提供了新的切入点 SparkSession 类, 在 Shell 启动时会创建名称为...一般而言，使用与系统实现语言相同的 scala 语言进行应用开发，在保障最大化运行时性能的同时（Scala, Java 程序会被编译直接在 JVM 上运行的代码，Python, R 程序运行时存在虚拟机之间的交互...我这里选择 sbt，原因是这三者虽然功能上难分伯仲，但 sbt 与 scala 具备天然的亲和性，它自身是使用 scala 编写的，其工程定义文件实际也是一个 scala 程序，使用它构建 scala

6.8K2 1

大数据技术之_19_Spark学习_02_Spark Core 应用解析+ RDD 概念 + RDD 编程 + 键值对 RDD + 数据读取与保存主要方式 + RDD 编程进阶 + Spark Cor

在 Spark 中，对数据的所有操作不外乎创建 RDD、转化已有 RDD 以及调用 RDD 操作进行求值。每个 RDD 都被分为多个分区，这些分区运行在集群中的不同节点上。...用户可以在创建 RDD 时指定 RDD 的分片个数，如果没有指定，那么就会采用默认值。默认值就是程序所分配到的 CPU Core 的数目。 2) 一个计算每个分区的函数。...2.2 RDD 创建在 Spark 中创建 RDD 的创建方式大概可以分为三种：从集合中创建 RDD；从外部存储创建 RDD；从其他 RDD 创建。 ?...(Array("a b c", "d e f", "h i j", "k l m", "o p q"), 2) mapPartSource3: org.apache.spark.rdd.RDD[String...(x.mkString("|"))).collect res18: Array[String] = Array(a b c|d e f, h i j|k l m|o p q) 5、mapPartitionsWithIndex

2.4K3 1

SparkR：数据科学家的新利器

RDD API 用户使用SparkR RDD API在R中创建RDD，并在RDD上执行各种操作。...目前SparkR RDD实现了Scala RDD API中的大部分方法，可以满足大多数情况下的使用需求： SparkR支持的创建RDD的方式有：从R list或vector创建RDD（parallelize...Scala API 中RDD的每个分区的数据由iterator来表示和访问，而在SparkR RDD中，每个分区的数据用一个list来表示，应用到分区的转换操作，如mapPartitions()，接收到的分区数据是一个...基于RDD API的示例 ‍ 要基于RDD API编写SparkR程序，首先调用sparkR.init()函数来创建SparkContext。...<- collect(counts) ‍基于DataFrame API的示例基于DataFrame API的SparkR程序首先创建SparkContext，然后创建SQLContext，用SQLContext

4.1K2 0

Spark Day05：Spark Core之Sougou日志分析、外部数据源和共享变量

// 在Spark 应用程序中，入口为：SparkContext，必须创建实例对象，加载数据和调度程序执行 val sc: SparkContext = { // 创建SparkConf对象...在Spark 应用程序中，入口为：SparkContext，必须创建实例对象，加载数据和调度程序执行 val sc: SparkContext = { // 创建SparkConf对象，设置应用相关信息...在Spark 应用程序中，入口为：SparkContext，必须创建实例对象，加载数据和调度程序执行 val sc: SparkContext = { // 创建SparkConf对象，设置应用相关信息...在Spark 应用程序中，入口为：SparkContext，必须创建实例对象，加载数据和调度程序执行 val sc: SparkContext = { // 创建SparkConf对象，设置应用相关信息...{SparkConf, SparkContext} /** * 基于Spark框架使用Scala语言编程实现词频统计WordCount程序，将符号数据过滤，并统计出现的次数 * -a.

9542 0

2021年大数据Spark（十五）：Spark Core的RDD常用算子

针对词频统计WordCount代码进行修改，针对分区数据操作，示例代码如下： package cn.itcast.core import org.apache.spark.rdd.RDD import...重分区函数算子如何对RDD中分区数目进行调整（增加分区或减少分区），在RDD函数中主要有如下三个函数。 ...函数： import org.apache.spark.Partitioner /** * 自定义分区器，实现RDD分区，在进行Shuffle过程中 */ class MyPartitioner...} } } 范例演示代码，适当使用函数调整RDD分区数目： package cn.itcast.core import org.apache.spark.rdd.RDD import org.apache.spark...存储到外部系统聚合函数算子在数据分析领域中，对数据聚合操作是最为关键的，在Spark框架中各个模块使用时，主要就是其中聚合函数的使用。

7603 0

Spark Streaming——Spark第一代实时计算引擎

最终，处理后的数据可以输出到文件系统，数据库以及实时仪表盘中。事实上，你还可以在 data streams（数据流）上使用 [机器学习] 以及 [图计算] 算法。...本指南告诉你如何使用 DStream 来编写一个 Spark Streaming 程序。...你可以使用 Scala，Java 或者 Python（Spark 1.2 版本后引进）来编写 Spark Streaming 程序。...transform(func) 通过对源 DStream 的每个 RDD 应用 RDD-to-RDD 函数，创建一个新的 DStream。这个可以在 DStream 中的任何 RDD 操作中使用。...} 这样就是，如果有checkpoint，程序会在checkpoint中把程序加载回来（程序被保存为二进制），没有checkpoint的话才会创建。

7151 0

【数据科学家】SparkR：数据科学家的新利器

RDD API 用户使用SparkR RDD API在R中创建RDD，并在RDD上执行各种操作。...目前SparkR RDD实现了Scala RDD API中的大部分方法，可以满足大多数情况下的使用需求： SparkR支持的创建RDD的方式有：从R list或vector创建RDD（parallelize...Scala API 中RDD的每个分区的数据由iterator来表示和访问，而在SparkR RDD中，每个分区的数据用一个list来表示，应用到分区的转换操作，如mapPartitions()，接收到的分区数据是一个...基于RDD API的示例要基于RDD API编写SparkR程序，首先调用sparkR.init()函数来创建SparkContext。...<- collect(counts) 基于DataFrame API的示例基于DataFrame API的SparkR程序首先创建SparkContext，然后创建SQLContext，用SQLContext

3.5K10 0

Spark：一个高效的分布式计算系统

RDD在需要进行分区把数据分布于集群中时会根据每条记录Key进行分区（如Hash 分区），以此保证两个数据集在Join时能高效。...RDD的内部表示在RDD的内部实现中每个RDD都可以使用5个方面的特性来表示：分区列表（数据块列表）计算每个分片的函数（根据父RDD计算出此RDD）对父RDD的依赖列表对key-value RDD...写SparK程序的一般步骤就是创建或使用(SparkContext)实例，使用SparkContext创建RDD，然后就是对RDD进行操作。...进入shell即可，在Spark-shell中SparkContext已经创建好了，实例名为sc可以直接使用，还有一个需要注意的是，在Standalone模式下，Spark默认使用的调度器的FIFO调度器而不是公平调度...() // First item in this RDD res1: String = # Spark 编写Driver程序在Spark中Spark程序称为Driver程序，编写Driver程序很简单几乎与在

2.2K6 0

5万字长文！搞定Spark方方面面

虽然MapReduce提供了对数据访问和计算的抽象，但是对于数据的复用就是简单的将中间数据写到一个稳定的文件系统中(例如HDFS)，所以会产生数据的复制备份，磁盘的I/O以及数据的序列化，所以在遇到需要在多个计算之间复用中间结果的操作时效率就会非常的低...是 Spark 自带的交互式 Shell 程序，方便用户进行交互式编程，用户可以在该命令行下可以用 scala 编写 spark 程序，适合学习测试时使用！...主要属性包括 1.多分区 2.计算函数 3.依赖关系 4.分区函数(默认是hash) 5.最佳位置 2、RDD-API 2.1 创建 RDD 1）由外部存储系统的数据集创建，包括本地的文件系统，还有所有...RDD分区的原则是使得分区的个数尽量等于集群中的CPU核心(core)数目，这样可以充分利用CPU的计算资源,但是在实际中为了更加充分的压榨CPU的计算资源,会把并行度设置为cpu核数的2~3倍。...将会创建和kafka分区数一样的rdd的分区数，而且会从kafka中并行读取数据，spark中RDD的分区数和kafka中的分区数据是一一对应的关系。

1.2K5 1

Spark的运行环境及远程开发环境的搭建

（Spark版本2.x.x - Scala版本2.11.x以上，在IDEA中新建项目时会在首选项中进行选择）第一个Scala程序：WordCount 注意：类似于Hadoop，如果开发环境不在集群内...即流程是一致的，但是在PC中引入的spark-core的作用是不同的，提交集群运行时，PC中的spark-core内容只是作为语法检查，类方法调用等辅助作用；但是本地运行时，除了上述功能外，其还充当了计算部分...全部步骤： PC上安装Scala环境，IDEA，IDEA安装Scala插件 1.本地运行新建Scala的Project，注意要选对应的scala版本然后在build.sbt中添加spark-core...{SparkConf, SparkContext} import org.apache.spark.rdd.RDD object WordCount extends App { // 读取hdfs文件...{SparkConf, SparkContext} import org.apache.spark.rdd.RDD object WordCount extends App { // 读取hdfs文件

2.1K3 0

Note_Spark_Day02：Standalone集群模式和使用IDEA开发应用程序

创建Maven Project SparkContext实例创建 WordCount代码编写使用spark-submit提交应用执行 03-[掌握]-Standalone集群【架构组成】 ...Spark Stanadlone集群类似Hadoop YARN集群功能，管理整个集群中资源（CUP Core核数、内存Memory、磁盘Disk、网络带宽等） Standalone集群使用了分布式计算中的...itcast.cn:7077 在spark-shell中执行词频统计WordCount程序代码，运行如下： val inputRDD = sc.textFile("/datas/wordcount.data...应用提交命令【spark-submit】使用IDEA集成开发工具开发测试Spark Application程序以后，类似MapReduce程序一样，打成jar包，使用命令【spark-submit...官方案例，提交Spark应用运行设置 14-[掌握]-IDEA应用开发【应用打包运行】将开发测试完成的WordCount程序打成jar保存，使用【spark-submit】分别提交运行在本地模式

4032 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭