Pyspark从路径存储桶中读取csv文件: AnalysisException: S3不存在_如何使用pyspark从s3存储桶中读取csv文件_从S3存储桶中读取大量CSV文件 - 腾讯云开发者社区

、

在Google Colab中，我正在尝试让PySpark从S3存储桶中读取csv。这是我的代码： # Read in data from S3 Bucketsurl = "https://crypto-senti-nb.s3DataFrame df.show() 这是我的回报： --------------

浏览 32提问于2021-10-15得票数 0

1回答

在aws glue pyspark作业中从s3加载JSON

、、、、

我正在尝试从glue pyspark脚本中的s3存储桶中检索JSON文件。我在aws glue中的作业中运行此函数： s3_bucket_path = 's3://bucket/data/file.gz' df

浏览 0提问于2018-08-14得票数 0

7回答

如何在没有异常的情况下使用pyspark检查文件/文件夹

、

在从databricks中读取文件之前，我试图检查它是否存在，以避免出现异常。我尝试了下面的代码片段，但是当文件不存在时，我得到了异常。from pyspark.sql import *SparkSession.builder.config(conf=SparkConf()) df = sqlContext.read.format('com.databricks.spar

浏览 0提问于2019-04-09得票数 9

回答已采纳

1回答

使用Informatica powercenter在亚马逊S3存储桶中创建文件夹模式

、、

我们需要使用Informatica powercenter 10.2 Hotfix 1将数据从teradata实现到亚马逊S3存储桶层中，所以我们的想法是将目标文件放在S3存储桶中的动态文件夹中，如s3://amazon.s3.bucket/YYYYMM/Schema/File.csv 我想动态传

浏览 0提问于2021-06-17得票数 0

2回答

从s3子目录读取PySpark中的数据

、、、、

我想从一个S3桶中读取所有的拼板文件，包括子目录中的所有文件(这些实际上是前缀)。在S3 url中使用通配符(*)只适用于指定文件夹中的文件。例如，使用此代码将只读取target/文件夹下的拼花文件。df = spark.read.parquet("s3://bucket/ta

浏览 1提问于2020-10-08得票数 2

回答已采纳

1回答

如何从S3拼图中逐行读取文件，逐行过滤并保存到另一个S3存储桶中？

、、、

我有一个存储桶，里面有几个拼花地板文件和数十亿条记录在S3存储桶中。我只有Pyspark (胶水)环境可以做到这一点，所以

浏览 1提问于2020-01-22得票数 0

2回答

从pyspark作业在s3存储桶中动态创建文件夹

、、、

我正在将数据写入s3存储桶，并使用pyspark创建拼图文件。我的存储桶结构如下：子文件夹和表如果文件夹不存在，这两个文件夹应该在运行时创建，如果文件夹存在，拼图文件应该在文件夹表中。当我在本地机器上运行<em

浏览 2提问于2020-12-03得票数 0

1回答

通过spark dataframe读取S3文件时，粘合书签不起作用

、、、

我有一个存储.gz文件(json格式)的S3存储桶。每小时将有更多的文件发送到此存储桶。我想使用Glue增量地(每天)从S3存储桶中读取数据，将.gz转换为拼接，然后写回另一个S3存储桶。我想我可以使用Glue书签来完成增量文件的读取/转换

浏览 24提问于2020-12-30得票数 1

2回答

将亚马逊网络服务S3连接到数据库PySpark

、、、

我正在尝试使用databricks pyspark连接和读取s3存储桶中的所有csv文件。当我使用一些我有管理员访问权限的存储桶时，它可以正常工作但是当我尝试连接到某个需要ACCESS_KEY_ID和SECRET_ACCESS_KEY的存储</

浏览 24提问于2019-11-04得票数 0

回答已采纳

1回答

使用Pyspark从s3存储桶中读取最后一个csv文件

、、、、

因此，我有一个s3存储桶(数据)，其中有一个名为(First)的文件夹，其中包含多个CSV文件，但我不知道该文件的名称，现在我想将该文件夹中的最新文件读取到pyspark dataframe中。

浏览 15提问于2021-09-16得票数 0

1回答

如何读取数据库中安装的dbc文件？

、、、、

我尝试读取databricks中的dbc文件(从s3桶中挂载)，文件路径是：df=spark.read.parquet(file_location)<

浏览 11提问于2022-02-25得票数 1

1回答

如何使用pyspark从s3存储桶中读取csv文件

、、、

我正在尝试从亚马逊网络服务的S3存储桶中读取csv文件，如下所示： spark = SparkSession.builder.getOrCreate() .csv(file)\ print(c) 但是我得到了以下错误： p

浏览 167提问于2021-08-25得票数 2

回答已采纳

1回答

从Community Edition中的DBFS位置遍历databricks中的pyspark文件

、、、、

我想遍历Databricks中的DBFS位置中可用的文件。但是它抛出了一个错误，说'org.apache.spark.sql.AnalysisException: Path不存在：‘下面是我尝试过的代码： import osfor fname in os.listdir(fileDirectory): df_app = sqlContex

浏览 10提问于2020-01-03得票数 0

2回答

在pyspark中读取太多的小文件需要花费很多时间

、、

我已经编写了pyspark作业来加载s3存储桶中存在的文件。在s3中有太多的小文件，我在spark中一个接一个地读文件。我正在一个接一个地读取文件，因为我添加了一个列，该列具有文件所在的存储桶路径的值。由于这个spark作业花费了大量的时间，因为它忙于一个接一个地迭代文件。filepathin

浏览 7提问于2020-12-08得票数 0

1回答

AWS胶排除模式

、、、

我正在从事一个项目，该项目使用Glue 3.0 & PySpark处理S3桶之间的大量数据。这是使用将数据从S3桶读取到DynamicFrame的方法，使用recurse连接选项设置为True，因为数据是大量嵌套的。我只希望读取以meta.json结尾的文件，因此我已经将设置为排除以data.csv "exclusions": ['**.Unable to parse file:

浏览 12提问于2022-02-24得票数 0

回答已采纳

2回答

将多个S3文件夹/路径读取到PySpark中

、、、

我可以使用以下命令导入存储在特定桶的特定文件夹中的所有CSV文件：假设现在是2014年11月。有没有办法安排

浏览 8提问于2017-09-15得票数 3

1回答

管理24 GB的S3文件的理想群集大小是多少

、、、、

我目前正在使用这个数据集s3://commoncrawl/crawl-001/2008/06/19/1/。它的大小是24 S3，我正在尝试将其分离为文本/html请求，并将其保存在我的S3存储桶中。代码一切正常，但当我试图将它保存到存储桶中时，我的记忆出现了问题： Reason: Container killed by YARN for exce

浏览 15提问于2021-09-08得票数 0

回答已采纳

1回答

从多个S3存储桶导入pyspark* dataframe，其中有一列指示条目来自哪个存储桶*

、、

我有一个按日期分区的S3存储桶列表。第一个存储桶标题为2019-12-1，第二个存储桶标题为2019-12-2，依此类推。这些存储桶中的每一个都存储我正在读取到pyspark dataframe中的拼图文件。从每个存储桶生成的pyspark datafram

浏览 13提问于2019-12-16得票数 0

回答已采纳

1回答

从大的s3存储桶中读取电子病历PySpark结构化流花费的时间太长

、、、、

我有一个两台计算机的EMR集群，安装了从s3读取数据的PySpark。代码是一个非常简单的过滤和转换操作，使用sqlContext.readStream.text从存储桶中获取数据。该存储桶大小约为10TB，由bucket/year/month/day/hour/*组织的大约75k个文件，其中*最多代表20个大小为128MB的文件。

浏览 0提问于2018-02-20得票数 0

3回答

如何从S3存储桶中读取CSV文件，对其应用特定的if语句，并写入新的更新CSV文件并将其放入S3存储桶中？

、、、、

我在将新的CSV文件写入S3存储桶时遇到了问题。我希望能够读取S3存储桶中的CSV文件，如果CSV中的某个值符合特定要求，我希望将其更改为不同的值。我读到过不可能编辑S3对象，所以每次都需要创建一个新对象。简而言之，我想从S3存储桶中的另一个CSV<

浏览 0提问于2019-08-01得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云