在这种情况下，可以对spark中拼图文件使用解压缩编解码器

、、

我是Spark的新手，正在尝试了解不同的压缩编解码器是如何工作的。我使用的是Cloudera Quickstart VM 5.12x、Spark 1.6.0和Python API。如果我使用以下逻辑压缩并另存为Parquet文件：df.write.parquet然后我可以把它们理解为： sqlCo

浏览 21提问于2018-01-10得票数 0

2回答

如何解压拼图文件？

、、、、

我有一个大小约为60MB的test.parquet文件。使用下面的脚本，我发现拼图文件的列压缩是GZIP。None total_compressed_size: 3796510 total_uncompressed_size: 6947287 我想在处理之前解压缩这个拼花文件用python如何解压这个GZIP压缩的拼图文件？

浏览 29提问于2021-07-02得票数 1

1回答

在Azure Databricks中解压缩snappy拼图文件

、、

我在azure data lake的一个文件夹里有一堆漂亮的拼花文件，有没有人有代码可以用来用Azure Databricks将漂亮的拼花文件解压成拼图文件。谢谢

浏览 17提问于2020-05-14得票数 0

1回答

星火本地模式-所有作业只使用一个CPU核心

、、、

我们在单个AWS EC2实例上以本地模式运行Spark，使用然而，使用New工具和一个简单的“top”进行分析表明，我们16台核心机器中只有一个CPU核心用于我们编写的三个不同的谢谢1)使用sqlContext从磁盘(S3)读取gzipped CSV文件1，并使用com.databricks.spark.csv (S3)读取DataFrame DF1。2)使用

浏览 2提问于2016-10-31得票数 6

回答已采纳

1回答

在同一个拼图文件中，每个行组可以有不同的模式吗？

、、、

在创建拼图文件时，我们可以对每个行组使用不同的模式吗？在这种情况下，页脚将拥有所有行组中所有模式的联合，但每个行组的模式将是不同的。这是公认的拼花地板格式吗？拼图规范是否清楚地表明，模式不能在同一拼图文件中的每个行组中更改？官方的规范对这一部分并不是很具体，但是当我们以这种方式写入文件时，Spark无法读取。我尝试编写这样一个

浏览 5提问于2019-08-20得票数 1

1回答

Spark:在写入时避免任务重启

、、

我有一个Spark应用程序，可以读取CSV和写入Parquet文件。在某些情况下(分配的内存太少，丢失的执行器)，拼图任务可能会失败并重试；在这种情况下，我注意到有重复的记录，即一些CSV在重试时多次写入拼图文件。避免这种重复的最新技术是什么？我已经在使用--conf spark.yarn.maxAppAttempts=1了，但它只适用于作业，

浏览 1提问于2018-07-24得票数 3

1回答

在不将文件移动到Azure Databricks文件系统的情况下，解压Azure数据湖Gen1中的文件的最简单和最好的方法是什么？

、

在不将文件移动到Azure Databricks文件系统的情况下，解压Azure数据湖Gen1中的文件的最佳方法是什么？目前，我们正在使用Azure databricks进行计算，而用于storage.We的ADLS有限制将数据移动到DBFS中。已在DBFS中装载ADLS，不确定如何继续

浏览 31提问于2019-06-20得票数 2

4回答

拼图文件压缩

、、

当在Spark中使用时，最优化的拼图文件压缩逻辑是什么？另外，在使用每种压缩类型压缩后，1 1gb拼图文件的大约大小是多少？

浏览 0提问于2016-05-07得票数 2

4回答

Hadoop gzip压缩文件

、、、、

它是一个6.7 GB的gzip压缩xml文件。我读到hadoop支持gzip压缩文件，但只能由单个作业上的映射器处理，因为只有一个映射器可以解压缩它。这似乎对处理过程施加了限制。有没有别的选择？比如将xml文件解压缩和拆分成多个块，然后用gzip重新压缩它们。谢谢你的帮助。

浏览 16提问于2011-04-12得票数 19

2回答

如何在Spark2中解压LZ4 JSON

、、、

我已经从https://censys.io/下载了一个xxxx.json.lz4文件，但是，当我尝试使用以下行读取该文件时，我没有得到数据输出/计数为0。metadata_lz4 = spark.read.json("s3n://file.json.lz4")val metadata_lz4_2 = spark</em

浏览 2提问于2017-04-05得票数 3

1回答

使用Spark* for ETL on EMR实现S3的最佳文件格式*

、、

我们计划使用Spark执行ETL处理，源数据位于S3上。用于ETL处理的数据量小于1亿。在这种情况下，在S3中存储数据的最佳格式是什么，即最佳压缩和文件格式(文本、序列、拼图等)

浏览 3提问于2017-06-28得票数 0

2回答

我想知道是否可以使用s3-dist-cp工具来合并拼图文件(快速压缩)。我尝试了"--groupBy“和"--targetSize”选项，它确实将小文件合并为更大的文件。但我无法在Spark或AWS Athena中阅读它们。在aws athena中，我得到了以下错误： HIVE_CURSOR_ERROR: Expected 246379 values in column chunk at s3:&

浏览 5提问于2017-12-16得票数 4

2回答

是有一个大的拼图文件好，还是有许多小的拼图文件更好？

、、

据我所知，hdfs会将文件分成类似64mb的块。我们有流式传输的数据，我们可以将它们存储到大型文件或中型文件中。列式文件存储的最佳大小是多少？如果我可以将文件存储到最小列为64mb的位置，是否会比拥有1 1gb的文件节省任何计算时间？

浏览 1提问于2017-03-21得票数 25

回答已采纳

1回答

oracle datetime字段spark读取失败，出现精度错误

、

我正在加载一个拼图文件，其中的行如下：问题: 1)我不明白哪一列可能触发spark，似乎没有一列接近精度限制2)我如何才能让spark告诉我它失败的更具体的列(或者更好的是，哪一行？3)我不能打印spark中的模式

浏览 15提问于2019-07-10得票数 0

4回答

处理星火中的大型gzipped文件

、、

我有一个来自s3的大型(大约85 GB压缩)压缩文件，我正试图在AWS上使用Spark (现在有一个m4.xLarge主实例和两个m4.10xLargecore实例，每个实例都有一个100 GB的EBS我知道gzip是一种不可拆分的文件格式，认为应该重新划分压缩文件，因为Spark最初给出了一个带有一个分区的RDD。但是，在做完之后 scala> val raw = spark.read.format("com.databrick

浏览 5提问于2016-11-08得票数 17

回答已采纳

1回答

为什么Spark* SQL中嵌套列的查询性能会有所不同？*

、

我使用Spark SQL编写了一些Parquet格式的数据，结果模式如下所示：|-- stateLevel: struct (nullable = true)|-- globalCount4: integer (nullable = false)现在，当我在像例如，在第一个数据集中，似乎整个“全局”列都存储在一起，而不是“global.count1”、“global.coun

浏览 4提问于2016-09-22得票数 5

3回答

将大文本文件导入Spark

、、

我有一个以竖线分隔的文本文件，大小为360 is，压缩(gzip)。该文件位于S3存储桶中。这是我第一次使用Spark。我知道，您可以对文件进行分区，以便允许多个工作节点对数据进行操作，这会带来巨大的性能提升。但是，我正在尝试找到一种有效的方法来将我的一个360‘m的文件转换为分区文件。有没有办法使用多个spark worker节点来处理我的一个压缩文件，以便对其进行分区？不幸的是

浏览 1提问于2017-10-25得票数 4

2回答

如何在启动的星火集群中启用Snappy编解码器支持？

、、、、

当试图从使用启动的Spark集群中读取快速压缩序列文件时，我收到以下警告： java.lang.RuntimeException: native snappy library not available在这种情况下启用Snappy编解码器支持的最佳方法是什么？

浏览 3提问于2015-09-28得票数 4

回答已采纳

2回答

用于databricks可伸缩集群的星火再分区逻辑

、、、

我正在读取星星之火中的gzip文件，并在rdd上进行重新分区以获得并行性，而对于gzip文件，它将在信号核心上读取并生成。按照，理想的分区数是集群中我可以在重新分区期间设置的核数，但是在自动缩放集群的情况下，这个数目会根据集群的状态和其中有多少执行者而变化。文件夹不断增长，gzip文件不断地出现在其中，gzip文件的大小为10 it，未压缩大小为150 it

浏览 1提问于2019-12-24得票数 0

回答已采纳

1回答

如何使用Apache Spark将JSON文件转换为parquet？

、、、

我是Apache Spark 1.3.1的新手。如何将JSON文件转换为Parquet？

浏览 2提问于2016-01-12得票数 10

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何解压拼图文件？

在Azure Databricks中解压缩snappy拼图文件

星火本地模式-所有作业只使用一个CPU核心

在同一个拼图文件中，每个行组可以有不同的模式吗？

Spark:在写入时避免任务重启

在不将文件移动到Azure Databricks文件系统的情况下，解压Azure数据湖Gen1中的文件的最简单和最好的方法是什么？

拼图文件压缩

Hadoop gzip压缩文件

如何在Spark2中解压LZ4 JSON

使用Spark* for ETL on EMR实现S3的最佳文件格式*

使用s3-dist-cp合并拼接文件

是有一个大的拼图文件好，还是有许多小的拼图文件更好？

oracle datetime字段spark读取失败，出现精度错误

处理星火中的大型gzipped文件

为什么Spark* SQL中嵌套列的查询性能会有所不同？*

将大文本文件导入Spark

如何在启动的星火集群中启用Snappy编解码器支持？

用于databricks可伸缩集群的星火再分区逻辑

如何使用Apache Spark将JSON文件转换为parquet？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐