Apache Spark在哪里对输出进行压缩？

、、、

我们有一个在独立集群模式下运行的Spark作业，它从HDFS读取数据，使用我们的自定义压缩器组件进行压缩，并将.zip文件写入Azure blob存储。我们的Spark和HDFS托管在同一数据中心(本地)。例如，Spark作业正在从本地HDFS读取8 GB的文件，并在Azure blob存储上创建3 GB的.zip，在这种情况下，Spark是将8 GB的文件复制到Azure blob存储中，然后将其压缩为3 GB的.

浏览 13提问于2021-07-23得票数 0

回答已采纳

1回答

在星火中压缩序列文件？

但是，我没有压缩输出。) <console>:21: error: type mismatch; found : Class[org.apache.spark.io.SnappyCompressionCodec](classOf[org.apache.spark</em

浏览 3提问于2014-04-02得票数 2

回答已采纳

1回答

使用Spark或AWS服务读取ZIP文件

、、、

我必须读取上传到s3上的压缩文件。功能:当任何文件上传到s3时，都会触发一个lambda，这会触发一个spark作业。我应该在哪里读取文件，在AWS Lambda中还是通过Apache Spark？哪一个将是有益的？如何在spark中读取压缩文件？

浏览 2提问于2019-06-08得票数 1

2回答

在Spark中使用哪个设置来指定`Output`的压缩？

、、

因此，Spark有一个spark-defaults.xml文件，用于指定设置，包括使用哪个压缩编解码器以及在哪个阶段(RDD、Shuffle)。大多数设置都可以在应用程序级别进行设置。编辑： conf = SparkConf() conf.set("spark.hadoop.mapred.output.compress", "true") conf.set("spark.hadoop.mapred.output.

浏览 4提问于2016-08-14得票数 3

1回答

实例化HiveSessionState时的Spark2数据加载问题

、

在集群模式下使用Spark2读取数据时遇到以下问题。"':“在谷歌了很多次之后，我对这个问题一无所知。': at org.apache.spark.sql.SparkSession$.org$apache$spark$sql$SparkSession$$reflect(SparkSession.scalaorg.apache.spark.sql.SparkSession.sess

浏览 0提问于2017-12-26得票数 1

1回答

扩展DefaultCodec以支持Hadoop文件的Zip压缩

、、、、

我获得了一些火花代码，它从HDFS中读取两个文件(头文件和正文文件)，将RDDString还原为一个分区，然后使用GZip编解码器将结果写入压缩文件： at org.apache.spark.rdd.Pair

浏览 1提问于2018-07-13得票数 1

回答已采纳

1回答

如何在另一个RDD中压缩具有相应元素的RDD？

、、

如下所示：scala> val rdd1 = spark.sparkContext.parallelize(List(1,1,2,3,4,4))scala> val rdd2 = spark.sparkContext.parallelize(List(1,2,3,4)) rdd2: org.apache.spark.rdd.RDD[Int现在，我在RDD1和RDD2上应用zi

浏览 2提问于2017-06-02得票数 1

回答已采纳

5回答

创建jar时未解决的依赖项错误

、、

当尝试使用sbt作为构建jar文件时，我面临以下错误[warn] ==== local: tried [warn]/home/hduser/.ivy2/local/org.ap

浏览 6提问于2014-08-13得票数 21

回答已采纳

1回答

Spark:如何将rdd.RDD[String]转换为rdd.RDD[(Array[Byte]，Array[Byte])]

、、

我正在使用spark读取压缩文件这为我提供了RDD[string]形式的数据。有关此要求的更多详细信息：classOf[TextOutputFormat[Text,IntWritable]], classOf[org.apac

浏览 3提问于2016-10-26得票数 0

1回答

在Spark中解压LZ4压缩数据

、、、

我在HDFS中有LZ4压缩的数据，我正尝试在Apache Spark中解压缩成RDD。据我所知，在JavaSparkContext中从HDFS读取数据的唯一方法是textFile，它只读取HDFS中的数据。我看过一些关于CompressionCodec的文章，但它们都解释了如何将输出压缩到HDFS，而我需要解压缩HDFS上已经存在的内容。我是Spark的新手，所以如果我遗漏了一些明显的东西，或者如果

浏览 0提问于2014-07-28得票数 4

1回答

如何在linux上读取part-00000.deflate文件

我用下面的代码写了一个spark字数统计程序：import org.apache.spark.sql.SparkSessionsubmit，我运行jar并在输出目录中获得输出： SPARK_MAJOR_VERSION=2 spark-submit --master local[2] --class com.practice

浏览 0提问于2018-07-21得票数 1

1回答

如何在Spark* SQL中使用快速压缩将数据写入hive表*

，并希望数据在HDFS上快速压缩 test("test spark orc file format with compression") { SESSION.sql("insert overwrite table orc1 select a from tmp ") } 数据是写入的，但它是使用snnapy进行NOT压

浏览 44提问于2019-03-02得票数 1

1回答

如何使用Spark的CREATE查询将gziped json数据加载到表中

、、

我想连接Apache和Apache (我有Spark 3.1.2)，并使用Apache查询Superset的SQL中的数据。在spark的主服务器上，我使用这个命令spark-submit --class org.apache.spark.sql.hive.thriftserver.HiveThriftServer2启动了节俭服务器然后，我使用SQLAlchemy URI hive://hive@spark

浏览 5提问于2021-10-09得票数 3

1回答

使用s3-dist-cp进行星火应用程序消费的JSON聚合

、、、

运行在AWS上的spark应用程序从存储在S3中的JSON数组加载数据。然后通过火花引擎处理由此创建的Dataframe。S3对象Record1.json：{"Name“："John"，"City”："London"} S3对象Re

浏览 13提问于2020-04-07得票数 0

2回答

要添加.py文件压缩的pyspark addPyFile，但仍未找到模块

、

以前从未使用过spark，但其他帖子(来自有问题的包和)建议通过sparkContext.addPyFiles(mymodulefiles.zip)压缩模块并添加到spark作业中，但仍收到错误。", `num_executors`)conf.set("spark.serializer", "org.apache.spark<

浏览 1提问于2018-07-21得票数 22

回答已采纳

3回答

如何将火花结构流DataFrame插入到Hive外部表/位置？

、、

这是我的例子 .enableHiveSupport() .config("hive.exec.dynamic.partition.mode", "nonstrict") .config("spark.sql.str

浏览 0提问于2018-12-28得票数 13

1回答

Spark com.databricks.spark.csv无法使用节点- snappy加载snappy压缩文件。

、、、、

我在S3上有一些csv文件，它们使用snappy压缩算法(使用node-snappy包)进行压缩。0.0中丢失任务0.0 (TID 0，IP-10-0-32-5.ec2)：java.lang.InternalError:无法解压缩数据。org.apache.hadoop.io.compress.snappy.SnappyDecompressor.decompressBytesDirect(Native方法)在org.apache.hadoop.io.c

浏览 3提问于2016-09-24得票数 1

2回答

火花+ Parquet + Snappy:火花混合数据后的总体压缩比损失

、、、

我还使用snappy进行简单的读取/重新分区/写入Spark操作，结果是：我试着读取未压缩的80 GB，重新分区，然后写回

浏览 0提问于2018-02-18得票数 13

1回答

如何正确设置gzip标头后的星火java中的内容长度

、、、

“内容长度”的计算是正确的，但在使用以下内容时，我面临一个问题：根据的说法，当设置标题时，spark会自动压缩内容我自己对它进行压缩，计算结果大小是不可能的，因为火花会再次压缩输出。我在Spark上创建了一个库，它自动设

浏览 1提问于2019-06-01得票数 2

回答已采纳

1回答

如何在具有单节点(CentOS)纱线集群的单机(CentOS)上安装火花

、、

作为hadoop/Spark初学者，我遵循了本中的教程，并在我的单机(CentOS 6)上成功地部署了hadoop框架。现在，我也希望在同一台机器上安装Spark1.2，并让它与机器上的单节点Yarn集群一起工作，这意味着在我的单机上存储在hdfs上的文件上执行Spark，并将结果输出到hdfs。(2)从Apache网站下载了Spark1.2.1(为Hadoop2.4或更高版本预构建)，并对其进行<

浏览 4提问于2015-03-19得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在星火中压缩序列文件？

使用Spark或AWS服务读取ZIP文件

在Spark中使用哪个设置来指定`Output`的压缩？

实例化HiveSessionState时的Spark2数据加载问题

扩展DefaultCodec以支持Hadoop文件的Zip压缩

如何在另一个RDD中压缩具有相应元素的RDD？

创建jar时未解决的依赖项错误

Spark:如何将rdd.RDD[String]转换为rdd.RDD[(Array[Byte]，Array[Byte])]

在Spark中解压LZ4压缩数据

如何在linux上读取part-00000.deflate文件

如何在Spark* SQL中使用快速压缩将数据写入hive表*

如何使用Spark的CREATE查询将gziped json数据加载到表中

使用s3-dist-cp进行星火应用程序消费的JSON聚合

要添加.py文件压缩的pyspark addPyFile，但仍未找到模块

如何将火花结构流DataFrame插入到Hive外部表/位置？

Spark com.databricks.spark.csv无法使用节点- snappy加载snappy压缩文件。

火花+ Parquet + Snappy:火花混合数据后的总体压缩比损失

如何正确设置gzip标头后的星火java中的内容长度

如何在具有单节点(CentOS)纱线集群的单机(CentOS)上安装火花

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐