从Spark中的Google bucket读取文件

文章/答案/技术大牛

发布

2回答

、、、

我正在尝试从google bucket中读取文件，尽管我可以通过spark-shell读取它，因为我在进入spark shell时包含了gcs jar。当通过spark-submit提交它时，它抛出下面的错误。(RDD.scala:1157) at c

浏览 0提问于2017-01-06得票数 1

2回答

使用Seq(路径)从S3读取多个文件

、、、

我有一个scala程序，它使用"s3n://bucket/filepath/*. json“这样的文件模式来指定文件，使用DataFrameReader将json文件读入DataFrameReader。由于当前的方法使用通配符，如下所示：我想同时阅读json

浏览 0提问于2021-01-22得票数 1

1回答

在数据流程中运行PySpark时的ModuleNotFoundError

、、

在GCP上运行pyspark作业(使用dataproc 1.4)，我正在尝试从GCP存储中读取数据。获取以下错误： from google.cloud import storageModuleNotFound

浏览 30提问于2019-07-03得票数 1

3回答

为什么我在Dataproc上的initialization_action脚本无法设置环境变量？

、、

我正在尝试设置一个包含Dataproc集群的存储桶的环境变量。基本上，我将这些行添加到我的初始化操作脚本中： BUCKET=$(/usr/share/google/get_metadata_value attributes/dataproc-bucket) export BUCKET=${B

浏览 14提问于2019-02-17得票数 1

1回答

从谷歌云存储读取.txt文件

、、、、

我是谷歌云平台和Spark的新手。我正在尝试从谷歌云存储中读取.txt文件。但在将其作为blob对象下载后，我无法对其进行迭代。我的要求是将该文件作为简单的txt文件逐行读取。请参考以下代码： import pysparkfrom google.cloud import storageimpo

浏览 26提问于2021-06-22得票数 0

3回答

从Google云存储读取Dataproc

、、

我正在尝试从Dataproc pyspark应用程序中的GCS读取csv或txt文件。我试过很多东西。到目前为止最有希望的是：或者：s_df = sql_sc.createDataFrame(pandas_df)data = sc.textFile('gs://{<em

浏览 2提问于2018-08-09得票数 3

1回答

如何将.sql文件传递到spark.sql，并且.sql文件在谷歌存储中

、、、

我是Spark的新手，正在使用pySpark版本3.0.1，spark使用的Python版是3.6.x。我有合并SQL的SQL文件，并存储在google存储中。我正在尝试将这些SQL文件传递给spark.sql，可以帮助我如何使用SparkSession来实现这一点吗？from pyspark.sql import SparkSession spark = SparkSession.builder

浏览 0提问于2021-03-29得票数 0

1回答

如何修复pyspark中的"No FileSystem for scheme: gs“？

、、、

我正在尝试将一个json文件从google bucket读取到本地spark机器上的pyspark dataframe中。testspark = spark.read.json(bucket_path + blob.name).cache() theframes.append(testspark) 它可以很好地从存储桶中读取文件, in

浏览 218提问于2019-04-09得票数 4

回答已采纳

1回答

如何在PySpark中使用两个AWS凭据

、、、

我正在从使用特定凭据的桶中读取多个文件，我需要将这些文件写入其他aws帐户中的另一个桶中。我正在每个函数中更改aws凭据，但在执行写函数期间，它会给我函数1的读取带来错误，就好像凭证被更改了，但spark仍然在读取这些文件一样。

浏览 4提问于2022-09-09得票数 0

回答已采纳

1回答

火花保存数据元数据并重用它

、

当我读取一个包含大量文件的数据集(在我的例子中是来自google的数据集)时，spark.read在第一次操作之前会工作很长时间。我不知道它能做什么，但我猜它映射了文件并对它们进行了示例，以推断模式。数据排列如下： gs:/&#

浏览 1提问于2017-08-21得票数 0

1回答

用apache读取bigQuery中的分区表或视图

、、、

我正在使用dataproc连接器来读取一个分区表，它包含超过300‘t的数据并按日期进行分区，但我所需要的只是从今天开始用火花连接器读取数据，我试着用bigquery已经分区的视图读取它，但这不起作用，有什么方法可以从带有apache S火星的bigquery表中读取分区吗？{NaiveBayes, NaiveBayesModel} import org.apache.spark.mllib

浏览 1提问于2017-10-03得票数 0

1回答

PySpark从具有两种不同文件类型的s3压缩文件中读取csv

、、、

我有一个包含CSV和json映射文件的zip文件。我希望将csv读取到spark数据帧中，并将json映射文件读取到字典中。我已经完成了后半部分的工作： z = zipfile.ZipFile(io.BytesIO<e

浏览 9提问于2021-05-25得票数 2

1回答

如何使用Glue读取多个S3存储桶？

、、、、

使用Spark时，我可以在前缀中使用*从多个存储桶中读取数据。例如，我的文件夹结构如下： s3://bucket/folder/computation_date=2020-11-01/ s3://bucket/folder/computation_date=2020使用PySpark，如果我想读取11个月的所有数据，我可以这样做

浏览 20提问于2020-12-01得票数 0

回答已采纳

1回答

如何使用pyspark从s3存储桶中读取csv文件

、、、

我使用的是Apache Spark 3.1.0和Python 3.9.6。我正在尝试从亚马逊网络服务的S3存储桶中读取csv文件，如下所示： spark = SparkSession.builder.getOrCreate() .csv(file)\ .cou

浏览 167提问于2021-08-25得票数 2

回答已采纳

1回答

AWS作业create_dynamic_frame_from_options()打开特定的文件？

、、、

如果使用create_dynamic_frame_from_catalog()，则提供数据库名称和表名，例如，从Glue爬虫中创建，这实际上是命名特定的输入文件。我希望能够在没有爬虫和数据库的情况下完成同样的操作(指定一个特定的输入文件)。我尝试过使用create_dynamic_frame_from_options()，但“路径”连接选项显然不允许我命名该文件。有办法这样做吗？

浏览 1提问于2020-07-15得票数 1

2回答

Spark bucketing读取性能

、、、

Spark版本- 2.2.1。我已经创建了一个包含64个存储桶的存储器表，我正在执行一个聚合函数select t1.ifa,count(*) from $tblName t1 where t1.date_ = '2018-01-01我可以看到Spark UI中有64个任务，它们只使用了20个中的4个executor (每个executor有16个核心)。有没有一种方法可以扩展任务的数量，或者这就是存储桶查询应该如何运行(正在运行的核心数量相当于存储桶的

浏览 24提问于2018-01-19得票数 2

1回答

将python数据对象保存到google存储中，从dataproc中运行的pyspark作业中保存文件。

、、、

我在使用dataproc运行pyspark作业时收集度量，并且无法在google存储中持久化它们(只使用python函数，而不是使用Spark)。关键是我可以保存它们，在执行过程中，我成功地读取和修改了它们，但是当作业结束时，我的google存储文件夹中什么都没有。# Python import pand

浏览 0提问于2018-02-08得票数 2

1回答

从新位置进行Spark读取保持输出目录不变

、

我有一个spark作业，它从源s3://bucket/ source -1文件夹读取(使用结构化流式API)，并写入s3://bucket/destination-1文件夹。检查点保存在s3://bucket/checkpoint-1。现在，我希望从s3://bucket/source-2读取具有相

浏览 0提问于2021-05-01得票数 1

2回答

使用Spark读取AWS_PROFILE文件时提供S3

、、、、

我希望我的Spark (Scala)能够读取S3文件在我的dev机器上，我可以使用awscli访问S3文件，这是~/.aws/config或~/.aws/credentials中预先配置的配置文件，

浏览 9提问于2021-04-26得票数 1

1回答

如何使PySpark在集群上工作

、、、

我有一系列问题(很抱歉，Google文档太糟糕了，而且不方便用户使用)：您可以将ssh放入头计算机并在整个集群中运行星火，还是使用Google的gcloud dataproc jobs submit ...命令？当我在本地运行Spark作业并尝试访问时，我这样做是没有问题的。当我尝试使用Dataproc时，它会崩溃。我在我的

浏览 3提问于2019-01-18得票数 3

点击加载更多