在Spark中读取大型gz文件

文章/答案/技术大牛

发布

0回答

、

我有两个gzip文件，每个文件大约30 to大小，并编写了spark代码来分析它们。spark集群有4个工作节点(28 has，每个节点4个核心)和2个头节点(64 Has)。我正在使用sc.textFile(histfile,20)来读取这两个gzip文件并对它们进行并行化。因为有2个文件，所以到目前为止只有2个工人在使用。已经花了4个多小时，第一阶段还没有完成。当每个gzip文件的大小为100 in 200 in时，运行spark</em

浏览 6提问于2017-11-23得票数 3

回答已采纳

0回答

用scala读取spark中的压缩文件

、

我正在尝试使用以下代码在dataframe/rdd中读取spark/scala中.gz文件的内容 val sc = new SparkContext(conf) data.collect().foreach(println); .gz</

浏览 1提问于2017-06-17得票数 0

2回答

将tar.gz压缩的多个文件读入Spark

、、、

我正在尝试从几个压缩成tar的json文件创建一个Spark。例如，我有3个文件file2.json这些都包含在archive.tar.gz中。我想从json文件中创建一个dataframe。问题是Spark没有正确读取json文件。使用sqlContext.read.json("archive.tar.gz")或sc.textFi

浏览 3提问于2016-07-28得票数 9

回答已采纳

0回答

过滤`input_file_name`上的火花路径

、

有没有一种有效的方法，可以在不读取所有文件内容的情况下，将输入文件过滤到基于input_file_name的spark数据帧中？我在S3上有一条路径，里面有许多我正在通过spark.read.csv("path/to/csvs/*")阅读的大型压缩csvs (xx.csv.gz)。我想根据文件名过滤输入，而不是求助于glob模式。但是，当我使用wit

浏览 2提问于2017-06-13得票数 0

1回答

如何在Spark中处理多个csv.gz文件？

、、、、

我有一个包含多个表的大型数据集。每个表被分成数百个csv.gz文件，我需要通过PySpark将它们导入到Spark中。有关于如何将"csv.gz“文件导入到Spark的想法吗？SparkSQL的SparkContext或SparkSession是否提供了导入此类文件的功能？

浏览 22提问于2017-07-06得票数 1

1回答

如何使用spark* DF或DS读取".gz“压缩文件？*

、、、

我有一个.gz格式的压缩文件，是否可以使用spark DF/DS直接读取该文件？详细信息:文件是以制表符分隔的csv格式。

浏览 1提问于2018-03-26得票数 11

回答已采纳

3回答

如何用pyspark读取gz压缩文件

、、

我有.gz压缩格式的行数据。我不得不用pyspark来读它，下面是代码片段但我无法成功读取上述文件。如何读取gz压缩文件？我发现了一个类似的问题，但我当前版本的spark与该问题中的版本不同。我希望在hadoop中应该有一些内置的函数。

浏览 0提问于2017-03-13得票数 12

回答已采纳

1回答

在阅读tar.gz存档时使用特定模式过滤文件

、、、、

我的文件夹myfolder.tar.gz中有多个CSV文件。我以这种方式创建了它:首先将所有文件放在文件夹名myfolder中，然后准备一个tar文件夹。然后准备这个tar文件夹的.gz。就像我们想一起读取所有的abc文件一样。这不应该给我们def的结果，反之亦然。目前，我可以通过使用spark.read.csv()函数一起读取所有的CSV文件

浏览 1提问于2021-02-04得票数 1

回答已采纳

1回答

如何在Spark/Scala中不带(.gz)扩展的Azure上读取Gzipped文件

、

我有一个在Azure上没有.gz扩展名的Gzipped文件。路径：spark.read.option("header","true").option("inferSchema","true").textFile(newFollowersStartDatePath).show() 我相信

浏览 8提问于2019-07-15得票数 0

回答已采纳

3回答

PySpark3从https url读取文件

、、

PySpark中是否有从.tsv.gz中读取.tsv.gz的方法？("wikipediaClickstream").getOrCreate() url = "https://dumps.wikimedia.org/other/clickstream/2017-11/clickstream-jawiki-2017-11.

浏览 7提问于2021-09-25得票数 1

回答已采纳

1回答

在Databricks中将gzip文件另存为表

、、、

我想通过以下PySpark命令将gzip文件保存为Databricks中的配置单元表： df = spark.read.csv(".../Papers.txt.gz", sep="\t") df.write.saveAsTable("...") gzip文件Papers.txt.gz解压后重约60 it (这是一个很大的.txt文件，实际上取自here)，而Spark集群相当大(85

浏览 17提问于2021-10-26得票数 1

回答已采纳

2回答

使用Seq(路径)从S3读取多个文件

、、、

现在，我需要将".json“和".json.gz”(gzip)文件读入dataframe。[SparkSession]val df: DataFrame = spark.read.json(path:String)val df: DataFrame = spark.read.json(paths: String*) 我需要读取

浏览 0提问于2021-01-22得票数 1

1回答

如何在pyspark中读取大型zip文件

、、

我在s3上有n个.zip文件，我想要处理这些文件并从中提取一些数据。zip文件包含单个json文件。在Spark中，我们可以读取.gz文件，但我没有找到任何方法来读取.zip文件中的数据。有没有人能帮帮我，我该如何使用python在spark上处理大型zip文件。我遇到了一些

浏览 1提问于2019-03-28得票数 4

1回答

如何在Spark中处理大型gz文件

、、

我正在尝试读取大的gz文件，然后插入到表中。这花了这么长时间。sparkSession.read.format("csv").option("header", "true").load("file-about-5gb-size.gz").repartition(

浏览 2提问于2018-10-20得票数 0

2回答

在多个文件夹中压缩相同压缩文件名的多个gz文件

、、、、

我有一个目录，其中有多个文件夹，每个文件夹包含多个具有相同压缩文件名的.gz文件"spark.log“。我如何一次解压缩所有这些文件并将它们重命名为gz文件？我的数据是这样的AC在其中的每一个文件中，spark.log.gzspa

浏览 0提问于2022-10-07得票数 3

回答已采纳

1回答

在Databricks上使用Scala加载Z压缩文件

、、、

有没有办法用Spark直接读取.Z (大写)文件扩展名？我知道带有spark的Scala可以直接读取gzip文件(.gz)，但当我尝试将压缩的Z文件(.Z)加载到Dataframe中时，它不起作用。

浏览 0提问于2020-05-06得票数 2

1回答

读取pyspark数据帧中tar.gz文件中的特定csv文件

、、、、

我有这三个文件file_1.csv，file_2.csv，file_3.json里面的tar.gz文件。我想在spark数据帧中读取file_1.csvdf = spark.read.csv("s3://my_bucket/key/my_file_.tar.gz/file_1.csv")

浏览 0提问于2019-06-07得票数 0

1回答

如何在scala中使用星火流从文件夹中读取所有文件(包括子文件夹)？

、、

我有一些文件，我想要使用火花结构化流。├── fileFour.gz ├── fileSix.gzval df = spark .option("maxFilesPerTrigger", 1) .json("/myFolder/subFolderOne/") <-------

浏览 4提问于2021-02-25得票数 0

1回答

使用Spark从Hadoop读取JSON文件

、、、

我在树中的一些HDFS目录中有几个JSON文件(以.gz格式压缩)，如下所示： /dir2/file2.gz ...我需要从路径/master/中读取这些文件，并在Java中使用Spark将它们连

浏览 0提问于2016-04-29得票数 0

2回答

如何在并行spark中运行转换

、、、

我正在尝试读取text.gz文件，对其进行重新分区并进行一些转换，但是当我看到DAG时，stag1正在读取数据并仅在1个任务上执行转换，因此需要花费一些时间。 df1 =spark.read.text("text-04-14.log.gz")text_to_json_udf = udf(tex

浏览 2提问于2021-04-30得票数 0

点击加载更多