如何使用Pyspark从s3存储桶中读取csv文件(在macos中)？_如何使用pyspark从s3存储桶中读取csv文件_使用Pyspark从s3存储桶中读取最后一个csv文件 - 腾讯云开发者社区

amazon-web-services、apache-spark、amazon-s3、pyspark

我使用的是Apache Spark 3.1.0和Python 3.9.6。我正在尝试从亚马逊网络服务的S3存储桶中读取csv文件，如下所示： spark = SparkSession.builder.getOrCreate() file = "s3://bucket/file.csv" c = spark.read\ .csv(file)\ .count() print(c) 但是我得到了以下错误： py4j.protocol.Py4JJavaError: An error occurred while calling o26.csv. : org.apa

浏览 167提问于2021-08-25得票数 2

回答已采纳

1回答

管理24 GB的S3文件的理想群集大小是多少

python、amazon-web-services、apache-spark、amazon-s3、pyspark

我目前正在使用这个数据集s3://commoncrawl/crawl-001/2008/06/19/1/。它的大小是24 S3，我正在尝试将其分离为文本/html请求，并将其保存在我的S3存储桶中。代码一切正常，但当我试图将它保存到存储桶中时，我的记忆出现了问题： Reason: Container killed by YARN for exceeding memory limits. 11.1 GB of 11 GB physical memory used. 最初，我从具有两个从节点m5.xlarge的主节点开始，后来我尝试将主节点和从节点与m5.2xlarge放在一起，但这是不够的。

浏览 15提问于2021-09-08得票数 0

回答已采纳

1回答

将文件从S3存储桶读取到PySpark数据帧Boto3

apache-spark、amazon-s3、pyspark、boto3

如何将S3存储桶中的大量文件加载到单个PySpark数据帧中？我在一个EMR实例上运行。如果文件是本地的，我可以使用SparkContext textFile方法。但是当文件在S3上时，我如何使用boto3加载多个不同类型的文件(CSV，JSON，...)转换成一个单独的数据帧进行处理？

浏览 0提问于2018-05-29得票数 3

回答已采纳

1回答

还是？使用camel从s3读取csv文件时，字符被加到第一列。

csv、apache-camel

csv文件位于S3桶中，我使用camel aws来使用csv文件。但是，当csv文件被加载到本地时？字符被伪装成第一列。例如，原始文件名、姓氏brian、xi。在加载到本地后?名，姓氏brian，xi。我已经做过这个链接的研究：，然而，它似乎不适用于骆驼。如何从s3中读取csv文件，使用aws-s3从s3桶(如“Exchanges3File= consumer.receive( s3Endpoint )”)中使用csv文件，其中s3Endpoint=s3

浏览 3提问于2019-11-13得票数 0

2回答

将多个S3文件夹/路径读取到PySpark中

python、amazon-s3、pyspark、jupyter-notebook

我正在使用PySpark进行大数据分析。我可以使用以下命令导入存储在特定桶的特定文件夹中的所有CSV文件： df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('file:///home/path/datafolder/data2014/*.csv') (其中*表现得像通配符) 我有以下问题：如果我想对2014年和2015年的数据进行分析，即文件1是.load('

浏览 8提问于2017-09-15得票数 3

2回答

有没有办法在运行AWS Glue ETL作业时从S3存储桶中读取文件名并命名输出文件名。pyspark提供了这样做的方法吗？

amazon-web-services、amazon-s3、pyspark、aws-glue、aws-glue-data-catalog

我正在通过从多个名为rawpart1.json和rawpart2.json的S3存储桶中读取json文件来运行AWS Glue ETL作业。验证两个文件中的字段以及两个S3存储桶中的文件名。我可以读取和更改文件名吗？ETL job运行后，在S3存储桶中为ETL job的输出创建文件名。目前我得到的文件名是run-15902070851728-part-r-00000。让我知道我们是否可以在pyspark中做这件事？谢谢

浏览 19提问于2020-06-09得票数 1

1回答

通过spark dataframe读取S3文件时，粘合书签不起作用

amazon-web-services、amazon-s3、pyspark、aws-glue

我有一个存储.gz文件(json格式)的S3存储桶。每小时将有更多的文件发送到此存储桶。我想使用Glue增量地(每天)从S3存储桶中读取数据，将.gz转换为拼接，然后写回另一个S3存储桶。我想我可以使用Glue书签来完成增量文件的读取/转换/写入。然而，我发现如果我读取spark dataframe中的.gz文件，书签就不起作用了。换句话说，我的下面的胶水作业不会以增量方式读取文件。它读取该存储桶中的所有文件。我确实在胶水作业中启用了Bookmark。我错过了什么吗？是否需要通过glue动态数据帧而不是spark数据帧读取文件？我实际上不知道如何通过glue动态数据帧正确读取.gz文件

浏览 24提问于2020-12-30得票数 1

2回答

解压缩多个*.gz文件并在spark中创建一个csv文件

scala、apache-spark、apache-spark-sql、databricks

我在S3桶中有多个文件，必须解压缩这些文件，并将所有文件合并到一个带有单个头的文件中。所有文件都包含相同的标题。数据文件如下所示。存储系统: S3桶。 part-0000-XXXX.csv.gz part_0001-YYYY.csv.gz part-0002-ZZZZ.csv.gz . . . . part-0010_KKKK.csv.gz. 我想要一个CSV文件从所有的文件，如上面所示。请帮助我如何解压缩和合并所有的文件。在解压缩并将所有文件合并到一个CSV中之后，我可以使用该文件与以前的文件进行数据比较。我使用的是spark 2.3.0和Scala2.11 非常感谢

浏览 1提问于2018-09-26得票数 1

回答已采纳

1回答

Pyspark从路径存储桶中读取csv文件: AnalysisException: S3不存在

amazon-s3、pyspark

在Google Colab中，我正在尝试让PySpark从S3存储桶中读取csv。这是我的代码： # Read in data from S3 Buckets from pyspark import SparkFiles url = "https://crypto-senti-nb.s3.amazonaws.com/filename.csv" spark.sparkContext.addFile(url) df = spark.read.csv(SparkFiles.get("filename.csv"), sep=",", header=T

浏览 32提问于2021-10-15得票数 0

2回答

将亚马逊网络服务S3连接到数据库PySpark

python、amazon-s3、pyspark、databricks

我正在尝试使用databricks pyspark连接和读取s3存储桶中的所有csv文件。当我使用一些我有管理员访问权限的存储桶时，它可以正常工作 data_path = 's3://mydata_path_with_adminaccess/' 但是当我尝试连接到某个需要ACCESS_KEY_ID和SECRET_ACCESS_KEY的存储桶时，它将无法工作，访问被拒绝：我试过了： data_path = 's3://mydata_path_without_adminaccess/' AWS_ACCESS_KEY_ID='my key' AWS

浏览 24提问于2019-11-04得票数 0

回答已采纳

1回答

从多个S3存储桶导入pyspark dataframe，其中有一列指示条目来自哪个存储桶

amazon-s3、pyspark、pyspark-dataframes

我有一个按日期分区的S3存储桶列表。第一个存储桶标题为2019-12-1，第二个存储桶标题为2019-12-2，依此类推。这些存储桶中的每一个都存储我正在读取到pyspark dataframe中的拼图文件。从每个存储桶生成的pyspark dataframe具有完全相同的模式。我想要做的是迭代这些存储桶，并将所有这些拼图文件存储到一个单独的pyspark dataframe中，该数据框有一个date列，表示dataframe中的每个条目实际来自哪个存储桶。因为单独导入每个存储桶时生成的数据帧的模式是多层的(即每一行都包含结构数组的结构等)，所以我认为将所有存储桶合并到一个数据帧中的唯一

浏览 13提问于2019-12-16得票数 0

回答已采纳

1回答

如何在不将压缩文件下载到硬盘驱动器的情况下将数据集从压缩文件上载到s3桶？

amazon-web-services、amazon-s3

问题:我需要的数据在一个网站的压缩文件中，但是，压缩文件太大，无法下载到我的笔记本电脑上。我认为如何解决这个问题:将压缩文件上传到s3桶中，而不下载笔记本中的zip文件。目标:将zip文件放到s3桶上，解压缩s3桶上的文件，使用s3中的命令行查看解压缩文件的内容，从中提取CSV (或其他类型的可转换为CSV的数据)。我认为可以解决这个问题的方法是:使用AWS从网站获取zip文件，从而在AWS上创建一个临时存储空间；将来自AWS的文件放入s3桶中；在s3上解压缩文件；探索s3桶上解压缩文件的内容；将需要的内容提取到另一个s3桶中，然后使用从SageMaker上解压缩的文件中选择的内容。

浏览 2提问于2019-08-29得票数 1

2回答

从s3子目录读取PySpark中的数据

apache-spark、pyspark、parquet、aws-glue、pyspark-dataframes

我想从一个S3桶中读取所有的拼板文件，包括子目录中的所有文件(这些实际上是前缀)。在S3 url中使用通配符(*)只适用于指定文件夹中的文件。例如，使用此代码将只读取target/文件夹下的拼花文件。 df = spark.read.parquet("s3://bucket/target/*.parquet") df.show() 假设我在我的s3桶中有这样一个结构： "s3://bucket/target/2020/01/01/some-file.parquet" "s3://bucket/target/2020/01/02/some-file.pa

浏览 1提问于2020-10-08得票数 2

回答已采纳

2回答

从Glue Catalog和Glue Py Spark脚本中的动态路径同步CSV文件

amazon-web-services、amazon-s3、pyspark、aws-glue

我每天都将CSV文件存储在亚马逊网络服务s3中。下面是我的S3文件路径结构： s3://data-dl/abc/d=2019-09-19/2019-09-19-data.csv 在此结构中，将每天生成s3文件路径的日期部分。现在我想使用AWS glue for ETL将数据从S3传输到Redshift。要使用它，我如何在数据目录中添加S3路径？我只想同步最近使用的文件夹CSV文件。另外，对于Job part，我如何在Glue Pyspark脚本中声明此动态路径？

浏览 1提问于2019-09-19得票数 0

1回答

从亚马逊s3存储桶中读取csv文件时列数据类型发生变化

amazon-s3、pyspark、apache-spark-sql

我有两列的pyspark dataframe，后来我使用withColumn函数添加了第三列，将当前日期添加到所有现有行。 df.printSchema() Name --- string City ----string df.withColumn("created_date",current_date()) df.printSchema() Name --- string City --- string created_date --- Date df.show(2) Name City created_date Greg MN 2020-09-1

浏览 18提问于2020-09-14得票数 0

2回答

从EC2读取用于ML培训的S3存储桶

amazon-web-services、amazon-s3、amazon-ec2

我正在尝试在亚马逊网络服务EC2上训练一个机器学习模型。我目前有超过50 S3的数据存储在亚马逊网络服务的S3存储桶中。在EC2上训练我的模型时，我希望能够访问这些数据。从本质上讲，我希望能够调用此命令： python3 train_model.py --train_files /data/train.csv --dev_files /data/dev.csv --test_files /data/test.csv 其中/data/train.csv是我的S3存储桶s3://data/。我该怎么做呢？我目前只看到了将S3数据cp到我的EC2中的方法。

浏览 0提问于2020-06-22得票数 0

1回答

使用Glue将数据从关系数据库迁移到S3

python、amazon-web-services、amazon-s3、aws-glue、amazon-aurora

我在Amazon Arora Postgres有一张桌子。我需要将该表移到csv格式的S3存储桶中。我已经在AWS glue中创建了以下pyspark代码。而不是作为csv文件存储在S3存储桶中。在S3存储桶中创建多个文件，如run-XXX-part1。有没有办法在S3中将rds表导出为csv文件。代码:从awsglue.transforms导入sys从awsglue.utils导入*从pyspark.context导入getResolvedOptions从awsglue.context导入SparkContext从awsglue.job导入作业 ## @params: [JOB_NAME]

浏览 17提问于2020-05-16得票数 0

回答已采纳

2回答

在Rails 4中使用Roo从流中读取CSV文件

csv、ruby-on-rails-4、amazon-s3

我在这里有另一个问题，，但我没有被咬到-所以重述一下：我在S3存储桶中有一个CSV文件，我想在基于Heroku的应用程序中使用Roo读取它(即没有本地文件访问)如何从流中打开CSV文件？或者，有没有更好的工具来做这件事？我使用的是Rails4，Ruby2。注意，如果我从表单中张贴，我可以成功地打开CSV进行阅读。我如何调整它以从S3存储桶中截取文件？

浏览 0提问于2014-06-12得票数 1

1回答

使用雅典娜在s3桶中划分csv数据以进行查询

amazon-web-services、amazon-s3、amazon-athena

我在一个s3桶中每小时都有csv日志数据，我希望对它进行分区，以提高查询性能，并将其转换为parquet。另外，如何为将要添加的新日志自动添加分区。注意： csv文件名遵循标准日期格式。文件是从外部源编写的，不能编辑为在文件夹中写入，而只能在主桶中写入。我想把csv文件分别转换成拼板。

浏览 3提问于2020-05-08得票数 0

11回答

将私有S3桶中的文件读取到熊猫数据

amazon-web-services、pandas

我正在尝试从一个私有的S3桶中读取一个CSV文件到一个熊猫数据仓库： df = pandas.read_csv('s3://mybucket/file.csv') 我可以从公共桶读取文件，但是从私有桶读取文件会导致HTTP 403:禁忌错误。我已经使用AWS配置配置了aws凭据。我可以使用boto3从私有桶下载文件，后者使用aws凭据。似乎我需要配置熊猫使用AWS凭证，但不知道如何使用。

浏览 16提问于2016-03-04得票数 41

回答已采纳

1回答

用自定义名称将DataFrame写入S3中的csv文件

amazon-s3、pyspark、aws-databricks

我正在用以下代码将文件写入S3桶： df.write.format('csv').option('header','true').mode("append").save("s3://filepath") 这将按照需要将多个文件输出到S3桶，但每个部分都有一个长文件名，如： part-00019-tid-5505901395380134908-d8fa632e-bae4-4c7b-9f29-c34e9a344680-236-1-c000.csv 是否有一种方法可以将其写入自定义文件名，最好是在PySpark写函数

浏览 1提问于2022-03-03得票数 1

回答已采纳

1回答

使用py魅力s3库从boto3中删除文件

python、amazon-web-services、amazon-s3、boto3

如何使用pycharm boto3库从boto3桶中删除具有特定扩展名的文件。例如，我有一个s3桶，它有多个扩展名不同的文件，如'.txt‘、'.csv’等等。我想创建python脚本，它将从只有".csv“扩展名的s3中删除文件--请帮助

浏览 11提问于2022-07-14得票数 -2

2回答

从pyspark作业在s3存储桶中动态创建文件夹

python-3.x、amazon-web-services、amazon-s3、pyspark

我正在将数据写入s3存储桶，并使用pyspark创建拼图文件。我的存储桶结构如下： s3a://rootfolder/subfolder/table/ 子文件夹和表如果文件夹不存在，这两个文件夹应该在运行时创建，如果文件夹存在，拼图文件应该在文件夹表中。当我在本地机器上运行pyspark程序时，它会用_$folder$ (如table_$folder$ )创建额外的文件夹，但如果从emr运行相同的程序，它就会用_SUCCESS创建。 writing into s3: (pyspark program) data.write.parquet("s3a://rootfolder/sub

浏览 2提问于2020-12-03得票数 0

1回答

AWS emr驱动缸

amazon-web-services、apache-spark、pyspark、amazon-emr

我正在通过以下方法尝试在pyspark笔记本上使用AWS EMR 5.29中的外部驱动程序： #%%configure -f { "conf": {"spark.jars":"s3://bucket/spark-redshift_2.10-2.0.1.jar," "s3://bucket/minimal-json-0.9.5.jar," "s3://bucket/spark-avro_2.11-3.0.0.jar,"

浏览 3提问于2021-02-26得票数 1

回答已采纳

1回答

如何使用从.csv桶中获取S3文件？

apache-kafka、apache-kafka-connect

据我所知，S3源连接器只适用于与S3接收器连接器一起上传的对象。我还知道有一个假脱机连接器可以从本地目录读取.csv文件。但是，如何从.csv桶中读取S3文件呢？还是说这不现实？

浏览 7提问于2020-08-07得票数 0

2回答

雅典娜如何从S3存储桶中读取拼图文件

python、amazon-s3、parquet、amazon-athena、fastparquet

我正在移植一个python项目(s3 +雅典娜)从使用csv拼花。我可以制作拼花面板文件，可以通过拼花面板视图查看。我可以将文件上传到s3存储桶。我可以创建指向s3存储桶的雅典娜表。但是，当我在Athena Web GUI中查询该表时，它运行了10分钟(似乎永远不会停止)，并且没有显示任何结果。整个项目很复杂。我试着简化这个案例。 1.假设我们有以下csv文件(test.csv) "col1","col2" "A","B" 2.然后，我使用以下python (2.7)代码将其转换为拼图文件(test.pa

浏览 18提问于2018-09-06得票数 0

1回答

如何将亚马逊S3存储桶excel文件转换为CSV文件并将其存储在同一存储桶中

amazon-web-services、amazon-s3、aws-lambda、aws-glue

我的亚马逊s3存储桶中有excel文件，我想将excel文件转换为CSV文件并将其存储到相同的存储桶中。我知道我们可以使用AWS做到这一点，但我想通过python编码来做到这一点，所以请给我提供好的参考。此外，如果您提供AWS LAMDA函数触发方法，请与我分享如何为亚马逊S3存储桶设置触发。

浏览 46提问于2021-10-20得票数 0

1回答

AWS胶排除模式

amazon-web-services、amazon-s3、aws-glue、aws-glue-spark

我正在从事一个项目，该项目使用Glue 3.0 & PySpark处理S3桶之间的大量数据。这是使用将数据从S3桶读取到DynamicFrame的方法，使用recurse连接选项设置为True，因为数据是大量嵌套的。我只希望读取以meta.json结尾的文件，因此我已经将设置为排除以data.csv "exclusions": ['**.{txt, csv}', '**/*.data.csv', '**.data.csv', '*.data.csv']结尾的任何文件，但是，我始终收到以下错误： An err

浏览 12提问于2022-02-24得票数 0

回答已采纳

2回答

如何指定s3的服务器端加密？

python-2.7、apache-spark、amazon-s3、pyspark

由于堆栈溢出，我成功地将maven repo中的hadoop-aws-2.7.3.jar和aws-java-sdk-1.7.4.jar复制到$ ec2 _HOME/jars/中，以获得s3a://在我的ec2 linux实例上使用ec2 2.2.0从ec2存储桶中读取。 Df=spark.read.option(“头”、“真”).csv(“S3A://bucket/csv_file”) 但是，在启用服务器端加密的情况下，我不得不将转换后的数据写回s3桶。如下所料，操作抛出“访问拒绝”，因为我还没有指定标志，以便在pyspark执行env中启用服务器端加密。 df.write.parq

浏览 7提问于2017-08-02得票数 4

回答已采纳

3回答

从亚马逊网络服务S3读取数据

python、amazon-s3、amazon-sagemaker

我有一些格式非常特殊的数据(例如，由NI系统生成的tdms文件)，我将它们存储在S3存储桶中。通常，如果数据存储在我的本地计算机中，为了用python读取这些数据，我会使用npTDMS包。但是，当tdms文件存储在S3存储桶中时，应该如何读取这些文件呢？一种解决方案是将数据下载到EC2实例，然后使用npTDMS包将数据读取到Python中。但这似乎不是一个完美的解决方案。有没有办法可以像从S3中读取CSV文件一样读取数据？

浏览 22提问于2019-12-21得票数 0

回答已采纳

3回答

加载本地文件(而不是HDFS)在Spark失败

apache-spark、pyspark

我有一个问题--如何用sc.textFile在PySpark上加载本地文件(不是在HDFS上，也不是在PySpark上)。我读取，然后将sales.csv复制到主节点的本地(而不是HDFS)，最后执行以下操作 sc.textFile("file:///sales.csv").count() 但是它返回以下错误，即file:/click_data_sample.csv does not exist z:org.apache.spark.api.python.PythonRDD.collectAndServe.：调用Py4JJavaError时出错：ip-17x-xx-xx-xx

浏览 7提问于2016-02-01得票数 20

1回答

如何连接s3文件而不访问密钥详细信息

amazon-web-services、amazon-s3、pyspark、ssh

我们有一台unix机器，可以直接访问我们的s3桶。我们能够从unix机器上运行所有cli命令，比如"aws s3 ls“。现在，我们需要从那里读取一个文件，并使用pyspark创建一个星火数据框架。因此，现在需要对unix框进行ssh连接，并读取该文件并创建星火数据框架。有没有人能帮助我们如何访问s3而不用使用pyspark访问关键细节。

浏览 2提问于2022-10-19得票数 0

2回答

使用Python子文件夹从s3加载文件

python、amazon-web-services、amazon-s3、boto、boto3

我正在尝试从亚马逊网络服务的s3存储桶中加载pandas中的csv文件。Boto3似乎没有提供从子文件夹加载文件的功能。假设我在s3中有以下路径:bucket1 1/bucket1 files1/file1.csv 如何指定如何加载file1.csv？我知道s3没有目录结构。 import boto3 import pandas as pd s3 = boto3.client('s3') obj = s3.get_object(Bucket='/bucket1/creditdefault-ff.csv') df = pd.read_csv(obj['

浏览 2提问于2017-11-29得票数 2

1回答

通过雅典娜在S3上查询多个csv凸起

amazon-web-services、amazon-s3、amazon-athena

我以csv格式将SQL导出到S3中。每个表都被导出到单独的csv文件中，并保存在S3中。现在，我可以发送任何查询到S3桶，它可以连接多个表(S3中的多个csv文件)并获得一个结果集？我如何做到这一点，并保存在一个单独的csv文件？

浏览 7提问于2022-09-27得票数 -1

回答已采纳

2回答

挂载S3存储桶和将文件从S3存储桶复制到windows EC2实例，哪个更好？

amazon-web-services、amazon-s3、amazon-ec2

我有一个使用案例，其中CSV文件由服务存储在S3存储桶中。我在windows EC2上运行的程序必须使用转储在S3存储桶上的CSV文件。挂载还是复制，哪种方式会更好的使用文件？以及如何接近它。

浏览 62提问于2020-09-30得票数 1

2回答

Spark流处理二进制数据文件

pyspark、spark-streaming

我使用的是pyspark 1.6.0。我有现有的pyspark代码从亚马逊网络服务的S3桶读取二进制数据文件。其他Spark/Python代码将解析数据中的位，将其转换为int、string、boolean等。每个二进制文件都有一条数据记录。在PYSPARK中，我使用: sc.binaryFiles("s3n://.......")读取二进制文件。这很有效，因为它提供了一个元组(文件名和数据)，但我正在尝试找到一个等效的PYSPARK流API来读取二进制文件作为流(如果可以的话，希望也是文件名)。我尝试过:binaryRecordsStream(目录，recordLen

浏览 3提问于2016-06-29得票数 6

1回答

用罐头直接将雪花数据卸载到S3位置

amazon-web-services、amazon-s3、snowflake-cloud-data-platform、snowflake-schema

我试图将雪花中特定查询的结果直接卸载到S3位置。 copy into 's3://bucket-name/folder/text.csv' from <Some SQL Query> file_format = (type = CSV file_extension = '.csv' field_optionally_enclosed_by = NONE empty_field_as_null = false) max_file_size = 5000000000 storage_integration = aws single = true;

浏览 2提问于2020-01-23得票数 0

回答已采纳

2回答

将CSV数据从S3加载到Jupyter笔记本中

python、pandas、csv、jupyter-notebook、boto3

我在Amazon Cloud的S3存储桶中有几个CSV文件(50 GB)。我正在尝试使用以下代码在Jupyter Notebook (带有Python3内核)中读取这些文件： import boto3 from boto3 import session import pandas as pd session = boto3.session.Session(region_name='XXXX') s3client = session.client('s3', config = boto3.session.Config(signature_version='

浏览 14提问于2018-02-01得票数 3

回答已采纳

1回答

如何从S3拼图中逐行读取文件，逐行过滤并保存到另一个S3存储桶中？

python、amazon-web-services、amazon-s3、pyspark

我有一个存储桶，里面有几个拼花地板文件和数十亿条记录在S3存储桶中。我希望能够读取整个文件夹，逐行过滤(例如，如果行包含特定元素-过滤掉)，并将其保存到另一个S3位置。由于所有记录总共有几个if如果可能的话，我想逐行读取并将它们保存到另一个S3存储桶中。我只有Pyspark (胶水)环境可以做到这一点，所以不能在我的笔记本电脑或EC2 (安全原因)上做到这一点。在Linux中-我可以很容易地实现这一点： cat file.csv | grep -v "exclude value" > file2.csv 如何在S3中实现这一点？

浏览 1提问于2020-01-22得票数 0

2回答

在Python中从CSV动态生成拼图

python、python-3.x、pyspark、parquet、pyarrow

我有多个以CSV格式存储在S3存储桶上的非常大的数据集。我需要将这些CSV转换为Apache Parquet文件。我没有(也不想要)任何Spark集群，所以如果我错了，请纠正我，但在我看来，pyspark不能提供任何帮助。基本上，从一个逐行传输CSV的迭代器开始，我希望根据一个模式生成Parquet文件。据我所知，pyarrow不能在输入中接受迭代器。有没有人有办法解决这个问题？感谢任何人的帮助！

浏览 7提问于2019-09-13得票数 0

1回答

从互联网上传输s3数据的价格是否包括读取文件内容的价格？

amazon-web-services、amazon-s3、data-transfer

我有一个带有下载按钮的web应用程序，可以从s3桶下载对象。我也有绘图按钮来读取s3桶中csv文件的内容，使用read_csv读取列并进行可视化。我想了解的是，从互联网上传输s3数据的代价是只用于文件的实际下载，还是也包括读取内容，因为在这种情况下，字节也是通过互联网传输的。

浏览 0提问于2018-07-04得票数 0

回答已采纳

2回答

PySpark:如何加快sqlContext.read.json的速度？

apache-spark、amazon-s3、pyspark

我正在使用下面的pyspark代码从s3桶中读取数千个JSON文件 sc = SparkContext() sqlContext = SQLContext(sc) sqlContext.read.json("s3://bucknet_name/*/*/*.json") 这需要大量时间来读取和解析JSON文件(~16分钟)。我如何并行化或加速这个过程？

浏览 1提问于2018-06-20得票数 2

1回答

Spark和数据的连续处理

amazon-web-services、amazon-s3、pyspark、amazon-emr

我是Spark的新手，但我正在尽可能多地阅读。我有一个小项目，其中多个数据文件(在gzip中)将每小时连续地放在一个S3存储桶中。我需要能够打开/读取这些gzip文件，并在它们之间合并/聚合数据。因此，我需要以整体的方式来看待它们。如何使用Amazon AWS提供的哪些技术和工具？我是在S3文件夹中创建临时文件，还是在内存中保留数据帧，或者使用某个数据库并在每小时后清除数据？所以，我寻找的不仅仅是一段代码，而是一些想法。到目前为止，在亚马逊网络服务中，我已经编写了一个pyspark脚本，它一次读取一个文件，并在output S3文件夹中创建一个输出文件。但这给我留下了每个小时的多个输出文件。

浏览 0提问于2020-01-23得票数 0

1回答

在s3桶的csv文件中导出表格数据

hive、amazon-emr

我正在尝试将Hive f1的数据导出到s3://mubucket/exported.csv的csv文件中。我在Amazon中创建了一个集群，并使用emr-4.0.0。Hadoop发行版：Amazon 2.6.0和Hive 1.0.0。如何将数据从Hive表导出到s3桶的csv文件？

浏览 2提问于2015-08-12得票数 0

1回答

在s3上标记spark读取的对象

amazon-web-services、amazon-s3、pyspark、parquet

我在亚马逊s3上使用pyspark读取s3存储桶上的对象。我的存储桶是由许多json文件组成的，我读取了这些文件，然后将其另存为拼图文件 spark.read.json('s3://my-bucket/directory1/') spark.write.parquet('s3://bucket-with-parquet/', mode='append') 每天我都会上传一些新的文件到s3://my-bucket/directory1/上，我想更新它们到s3://bucket-with-parquet/，有没有一种方法可以确保我不会两次更新数据。我

浏览 1提问于2019-12-03得票数 2

2回答

PySpark解压缩文件:这是一种很好的方法来解压缩文件并将文件存储到Delta中？

python、amazon-s3、zip、azure-databricks、delta-lake

我有存储在s3中的压缩文件，然后我有一个["s3://mybucket/file1.zip", ..., "s3://mybucket/fileN.zip"]列表，我需要使用Spark集群解压缩所有这些文件，并将所有的CSV文件存储到一个增量格式表中。我想知道一种比我目前的方法更快的处理方法： 1)我有一个用于的桶，用于迭代我的Python。 2)我正在使用PythonBoto3 s3.bucket.Object(file)从Boto3获得压缩文件 3)我正在使用下一段代码解压缩文件 import io import boto3 import shutil im

浏览 0提问于2019-10-30得票数 6

2回答

java.io.IOException:不适用于方案: s3

amazon-web-services、apache-spark、amazon-s3、pyspark

我正在尝试读取s3桶中的数据，并且我正在使用jupyter笔记本。我已经在我的机器上安装了Spark，并通过导入findspark在jupyter中使用它 import findspark findspark.init() from pyspark.sql import * spark = SparkSession.builder.appName("my_app").getOrCreate() 但是，当我试图从存储桶读取数据时，我得到的是错误java.io.IOException: No FileSystem for when : s3。 input_bucket = &#

浏览 0提问于2021-10-27得票数 1

1回答

aws-s3存储桶以层次结构格式列出密钥

python、amazon-web-services、amazon-s3、boto3

我正在尝试从托管在亚马逊网络服务上的s3存储桶中下载密钥。密钥只是一些.csv文件。但是这些文件存储在s3存储桶内的子目录中。当我尝试使用s3_client.list_objects-v2(Bucket_name)方法列出特定文件名时，返回的是s3存储桶中的键和文件夹的完整层次结构。就像，对于桶，bucket_1 file_name='my_file.csv' resp=s2_client_conn.list_objects_v2(Bucket='bucket_1') for obj in resp['Contents']: if file

浏览 1提问于2018-05-31得票数 1

3回答

如何从AWS Lambda的s3存储桶中读取csv文件？

python、amazon-s3、aws-lambda、boto3、aws-serverless

我正在尝试读取上传到s3存储桶中的csv文件的内容。为此，我从触发lambda函数的事件中获取存储桶名和文件键，并逐行读取它。下面是我的代码： import json import os import boto3 import csv def lambda_handler(event, context): for record in event['Records']: bucket = record['s3']['bucket']['name'] file_key = record[&

浏览 65提问于2019-07-02得票数 4

回答已采纳

4回答

如何在Python中使用Pandas从s3存储桶中读取csv文件

python、amazon-web-services、pandas、amazon-s3

我正在尝试使用以下代码将位于亚马逊网络服务S3存储桶中的CSV文件作为pandas数据帧读取到内存中： import pandas as pd import boto data = pd.read_csv('s3:/example_bucket.s3-website-ap-southeast-2.amazonaws.com/data_1.csv') 为了提供完整的访问权限，我在S3存储桶上设置了存储桶策略，如下所示： { "Version": "2012-10-17", "Id": "statement1", &

浏览 1提问于2015-06-13得票数 18