Spark:如何添加每个RDD的大小并写入新文件？

在Spark中，我们可以通过以下步骤来添加每个RDD的大小并将结果写入新文件：

导入必要的Spark模块和函数：import org.apache.spark.{SparkConf, SparkContext}
创建SparkConf对象并设置应用程序的名称：val conf = new SparkConf().setAppName("RDDSize").setMaster("local")
创建SparkContext对象：val sc = new SparkContext(conf)
创建一个RDD：val rdd = sc.parallelize(Seq(1, 2, 3, 4, 5))
定义一个函数来获取RDD的大小：def getRDDSize(rdd: org.apache.spark.rdd.RDD[_]): Long = { rdd.map(_.asInstanceOf[AnyRef].getClass.getName -> 1L) .reduceByKey(_ + _) .collect() .map { case (className, count) => s"$className: $count" } .mkString(", ") .getBytes("UTF-8").length } val rddSize = getRDDSize(rdd)
将RDD的大小写入新文件：sc.parallelize(Seq(rddSize)) .saveAsTextFile("output/rdd_size")

在上述代码中，我们首先定义了一个名为getRDDSize的函数，该函数接受一个RDD作为参数，并返回RDD的大小。该函数使用map操作将RDD中的每个元素映射为(类名, 1)的键值对，然后使用reduceByKey操作对相同类名的元素进行累加，最后使用collect操作将结果收集到Driver端，并使用map操作将结果转换为字符串形式。最后，我们使用getBytes方法获取字符串的字节数，并将结果保存到新文件中。

请注意，上述代码中的文件路径为output/rdd_size，你可以根据需要修改为你想要保存结果的路径。

推荐的腾讯云相关产品和产品介绍链接地址：

Spark:如何添加每个RDD的大小并写入新文件？

scala、apache-spark

我将每个事件保存在文本文件中，如下所示：我还想保存每个事件的总大小，我正在保存到文本文件。1)如何将每条记录的总大小保存到新文件中?

浏览 7提问于2017-06-20得票数 0

回答已采纳

2回答

在火花流上下文中将RDD写入HDFS

scala、hadoop、apache-spark、hdfs、spark-streaming

我有一个spark 1.2.0的spark流媒体环境，我从本地文件夹中检索数据，每次我发现文件夹中添加了一个新文件时，我都会执行一些转换。因为我真的需要使用数组来操作数据，所以不可能用DStream.saveAsTextFiles("...")将数据保存在HDFS上(这将很好地工作)，我必须保存RDD，但是有了这个preocedure，我终于有了名为使用arr.foreach(println)，我能够看到正确的转换结果。我的怀疑是

浏览 1提问于2015-07-02得票数 7

回答已采纳

1回答

我可以使用Spark进行自定义计算吗？

apache-spark、pyspark、databricks

我有一些(200左右)大的zip文件(有些大于1 1GB)，它们应该被解压并使用Python地理和图像处理库进行处理。结果将以新文件的形式写入FileStore，稍后将用于Databricks中的ML任务。如果我想利用Spark集群的处理能力，一般的方法是什么？我正在考虑将文件名添加到DataFrame中，并使用用户定义的函数通过Select或类似的方法来处理它们。我相信我应该能

浏览 16提问于2020-09-30得票数 1

回答已采纳

1回答

使用pyspark时，哪个选项的性能最好？使用map的UDF或RDD处理？

apache-spark、pyspark、apache-spark-sql、rdd、spark-structured-streaming

使用pyspark时，哪个选项的性能最好？使用map的UDF或RDD处理？我使用spark Structured streaming来使用数据，对于每个微批量，我将DF转换为RDD，并执行一些python graphkit操作，然后再次将RDD转换为DF以写入Kafka流。

浏览 23提问于2020-06-26得票数 1

1回答

添加到字符串Spark列表

java、json、apache-spark、spark-streaming、rdd

我有以下Java Spark代码： //do some operations rdd.foreach(msg -> {//Kafka messages writeJsons(jsonList);/&

浏览 1提问于2018-07-05得票数 2

3回答

Java Apache Spark:长的转换链导致二次时间

java、apache-spark

我有一个使用Apache Spark的Java程序。该程序最有趣的部分如下所示： .AnnotatedDocument> ll = annotated.collect();} 因此，实际上，行(**)会生成一个RDD我的</e

浏览 1提问于2016-03-21得票数 6

1回答

尝试通过Java SDK将记录从Spark* DataFrame写入Dynamodb时，任务不可序列化*

java、amazon-web-services、apache-spark、apache-spark-sql、amazon-dynamodb

(0), row.getString(1))).collect()org.apache.spark.SparkException(SparkContext.scala:2094)at org.apache.spark.rdd</

浏览 4提问于2017-08-01得票数 1

1回答

在apache spark中，RDD缓存逐出的LRU策略是如何工作的？

apache-spark、spark-streaming、rdd

(1) Spark如何决定为RDD驱逐哪些分区？ (2) LRU和RDD StorageLevel之间的关系是什么？(3)如果数据源大小很大(大于所有executor内存之和)，spark如何加载数据并创建RDD？它与LRU有关吗？我创建这个问题的目的是为了获得一些关于RDD LRU驱逐的细节，StorageLevel。

浏览 0提问于2017-09-06得票数 1

1回答

为什么Spark总是将相同数量的文件写入HDFS？

apache-spark-sql、hdfs、spark-streaming

我有一个用Scala编写的Spark流媒体应用程序，在CDH中运行。应用程序从Kafka读取数据并将数据写入HDFS。在将数据写入HDFS之前，我执行了partitionBy，因此数据是分区写入的。每个分区在写入时都会得到3个文件。我还使用coalesce来控制数据的分区数量。我尝试使用3个执行器和6个执行器运行，但每个分区中的文件数量仍然是3个。这就是我将数据写入HDFS

浏览 0提问于2018-09-18得票数 1

1回答

在Scala中使用索引将RDD激发到新的MongoDB集合

mongodb、scala、apache-spark、rdd

在火花提交作业(用Scala编写的.JAR)中，我需要访问现有的MongoDB，在db中创建一个新的集合，添加索引，从分布在1,000多个执行者的RDD中写入数据到集合中。我找不到一个能做到这一切的图书馆。现在，我使用mongo火花连接器从RDD写入，然后使用casbah创建索引。从RDD写入新集合(使用mongo

浏览 2提问于2017-10-31得票数 1

回答已采纳

2回答

mkString在PySpark中的等价性是什么？

python、scala、apache-spark、pyspark

我正在将一个dataframe转换成一个管道分隔的值，并将其写入shell (scala)中的一个文件中。但我在PySpark方面毫无头绪。会很感激你的帮助。尤其是我不知道如何用“\”来连接每个列scala> val stgDF = spark.read.table("tbl") stgDF: org.apache.spark.sql.DataFrameres0: Array[String] = Arra

浏览 3提问于2017-10-30得票数 4

回答已采纳

1回答

单日志文件的火花累积处理

apache-spark、spark-streaming

对于使用spark streaming的日志处理，我使用了socketStream和textFileStream API。通过socketStream，使用特定端口上的nc -lk，我们可以读取附加的日志文件，通过textFileStream，可以读取目录中添加的任何新文件并进行累积处理。我正在寻找的是一个单个日志文件，随着时间的增长，我如何读取相同的日志文件: DStream或任何Spar

浏览 0提问于2015-12-30得票数 3

1回答

如何增加cassandra磁盘I/O

io、cassandra

我注意到，在任何工作/任务所执行的火花，卡桑德拉的I/O率(从收集石墨到地堑)非常低-磁盘读取操作/Sec和磁盘写入操作/Sec的最大数量为75。这似乎是一个节流的problem...So，我如何才能提高卡桑德拉磁盘I/O率？

浏览 2提问于2016-01-05得票数 2

回答已采纳

1回答

GC减慢了spark作业的执行速度

amazon-s3、apache-spark、garbage-collection

我正在运行一个非常简单的spark作业，它一个接一个地读取许多s3文件，并调用RDD上的映射/过滤器作业，然后将结果写出到另一个s3。换句话说，首先有一个for循环，在每个循环中，有一个sc调用来读取，处理，然后写入步骤。尽管与节点大小和数量相比，每个文件的大小都很小(在8个节点内运行500MB，每个节点有10 GB的执行器内存)，但速度仍然异常缓慢。

浏览 0提问于2015-10-17得票数 1

2回答

Spark Dataframe/RDD无法通过计算另一列的内容来创建新列

scala、apache-spark、apache-spark-sql

我有一个Spark RDD (或Dataframe -转换成两者都不是问题)，它有以下列(每个结构的示例)：我想扩展这个RDD/DF，增加一个包含列表数组大小的列。因此，输出应该是这样的(示例)： org.apache.spark

浏览 27提问于2017-07-07得票数 0

回答已采纳

1回答

关于数据集中的kryo和java编码器的问题

apache-spark、apache-spark-dataset、kryo、apache-spark-encoders

我使用的是Spark2.4，指的是public class EmployeeBean implements Serializable { private有用的部分-2 LocalTableScan [value的大小不应该小于Java序列化RDD，而不是双倍<

浏览 1提问于2019-01-04得票数 2

回答已采纳

1回答

将rdd的每个元素保存在文本文件hdfs中

apache-spark、hdfs、rdd

我正在使用spark应用程序。在rdd的每个元素中都包含大量的数据。我想将rdd的每个元素分别保存到多个hdfs文件中。我尝试了rdd.saveAsTextFile("foo.txt")，但我将为整个rdd创建一个文件。rdd大小是10。我想要10个hdfs格式的文件。我如何才能做到这一点？？

浏览 0提问于2017-10-11得票数 1

1回答

写入时对数据进行分区的自定义文件格式

apache-spark

您好，我想将我的spark数据帧保存到一个具有自定义文件格式的文件中，以便它在写入文件时将数据分区到不同的文件中。此外，我需要为每个分区关键字的单一部分文件。我已经尝试扩展TextBasedFileFormat和change writer来满足我的需求。在没有随机写入文件的情况下对数据进行分区。但我觉得每个rdd分区都会将数据写入不同的部分文件

浏览 16提问于2019-05-29得票数 0

回答已采纳

1回答

对少于N个分区的N个文件的磁盘进行spark写入

apache-spark、partition

我们可以写数据到100个文件，每个文件有10个分区吗？我知道我们可以使用repartition或coalesce来减少分区数量。但我看到一些hadoop生成的avro数据的分区数量远远超过了文件数量。

浏览 11提问于2018-01-08得票数 8

回答已采纳

1回答

在pyspark中使用foreachRDD和foreach遍历rdd

python、apache-spark、pyspark

OS", "some_other_property": "value", "row_key": 555}(rowkey, [rowkey, column-family, key, value]) 正如您从输入格式中看到的，我必须获取原始数据集并迭代所

浏览 2提问于2016-05-28得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spark:如何添加每个RDD的大小并写入新文件？

相关·内容

Spark:如何添加每个RDD的大小并写入新文件？

在火花流上下文中将RDD写入HDFS

我可以使用Spark进行自定义计算吗？

使用pyspark时，哪个选项的性能最好？使用map的UDF或RDD处理？

添加到字符串Spark列表

Java Apache Spark:长的转换链导致二次时间

尝试通过Java SDK将记录从Spark* DataFrame写入Dynamodb时，任务不可序列化*

在apache spark中，RDD缓存逐出的LRU策略是如何工作的？

为什么Spark总是将相同数量的文件写入HDFS？

在Scala中使用索引将RDD激发到新的MongoDB集合

mkString在PySpark中的等价性是什么？

单日志文件的火花累积处理

如何增加cassandra磁盘I/O

GC减慢了spark作业的执行速度

Spark Dataframe/RDD无法通过计算另一列的内容来创建新列

关于数据集中的kryo和java编码器的问题

将rdd的每个元素保存在文本文件hdfs中

写入时对数据进行分区的自定义文件格式

对少于N个分区的N个文件的磁盘进行spark写入

在pyspark中使用foreachRDD和foreach遍历rdd

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐