将csv文件从S3读取到R中的spark_将文本文件从S3读取到Spark df : UsupportedOperationException_从字符矢量CSV读取到R中的tibble - 腾讯云开发者社区

、、

我不得不将文件从Amazon解压缩到我的驱动程序节点( S3集群)，我需要将所有这些csv文件作为加载，但是当我试图从驱动程序节点加载数据时，我发现了下一个问题： PySpark： df = self.spark.read.format("csv").option("header", True).load("file:/databricks/driver/*.csv") ‘路径不存在:文件:/文件夹/*..csv’ 我尝试使用dbutils.fs.mv()将所有这些文件移动到dbfs，但是我运行的是一个Python，我不能使用dbutils()

浏览 1提问于2019-10-24得票数 1

2回答

PySpark解压缩文件:这是一种很好的方法来解压缩文件并将文件存储到Delta中？

、、、、

我有存储在s3中的压缩文件，然后我有一个["s3://mybucket/file1.zip", ..., "s3://mybucket/fileN.zip"]列表，我需要使用Spark集群解压缩所有这些文件，并将所有的CSV文件存储到一个增量格式表中。我想知道一种比我目前的方法更快的处理方法： 1)我有一个用于的桶，用于迭代我的Python。 2)我正在使用PythonBoto3 s3.bucket.Object(file)从Boto3获得压缩文件 3)我正在使用下一段代码解压缩文件 import io import boto3 import shutil im

浏览 0提问于2019-10-30得票数 6

1回答

将spark数据帧导出到带有标头和特定文件名的.csv

、、、、

我正在尝试将数据从spark dataframe导出到.csv文件： df.coalesce(1)\ .write\ .format("com.databricks.spark.csv")\ .option("header", "true")\ .save(output_path) 它正在创建名为"part-r-00001-512872f2-9b51-46c5-b0ee-31d626063571.csv“的文件我希望文件名为"part-r-00000.csv“或"part-00000.csv” 由于该文件

浏览 6提问于2018-02-07得票数 12

3回答

EMR上的火花究竟是如何从S3中读取的？

、、、

关于将s3上的文件读入带有Spark的EMR集群中的实际机制，只需问几个简单的问题： spark.read.format("com.databricks.spark.csv").load("s3://my/dataset/").where($"state" === "WA")是否将整个数据集传送到EMR集群的本地HDFS，然后执行筛选？还是在将数据集带入群集时对记录进行筛选？还是两者都不起作用？如果是这样的话，到底发生了什么？官方文档缺乏对正在发生的事情的解释(或者如果它有解释，我就找不到它)。有人能用这样的解释来解释，

浏览 0提问于2018-01-20得票数 1

回答已采纳

2回答

火花org.apache.hadoop.mapred.InvalidInputException S3 CSV读取返回

、、

我在这里看到了几个帖子和谷歌搜索的org.apache.hadoop.mapred.InvalidInputException，但大多数涉及HDFS文件或陷阱错误。我的问题是，虽然我可以从spark读取CSV文件，但是从编译的JAR中运行它会不断地返回一个org.apache.hadoop.mapred.InvalidInputException错误。罐子的粗糙过程：阅读S3中的JSON文档(此工作) 从S3中的拼花文件中读取(这也成功) 将对#1和#2的查询的结果写入S3中的拼花文件(也成功) 从相同的存储桶#3中读取配置csv文件。(这失败了) 下面是我在代码中

浏览 4提问于2017-02-03得票数 0

1回答

用于大型csv文件的sparklyr

、、

我正在尝试使用sparklyr加载一个包含一百万行和1000列的数据集。我在工作中的一个非常大的集群上运行Spark。尽管如此，数据的规模似乎太大了。我尝试了两种不同的方法：这是数据集：(train_numeric.csv) 1) -将路径放入hdfs - spark_read_csv(spark_context，.csv ) 2) -将csv文件作为常规R dataframe读取- spark_frame<-copy_to(sc，R-dataframe) 这两种方法在数据集的子集上都工作得很好，但当我尝试读取整个数据集时，这两种方法都会失败。有没有人知道适用于大型数据集的方法？

浏览 2提问于2017-05-30得票数 0

1回答

S3中火花数据到csv的实现

、、

我需要上传一个火花数据作为一个csv到一个路径在S3。在没有使用库的情况下，我很难找到解决方案。由于客户的限制，我不能使用熊猫或s3fs。我可以用boto3。这就是我所拥有的 import datetime as dt from pyspark.sql.functions import * import boto3 MY_BUCKET = spark.confi.get('spark.yarn.appMasterEnv.MY_BUCKET') df = spark.sql("selec column_1, column_2 from my table")

浏览 0提问于2022-11-09得票数 0

1回答

获取spark数据帧写入的文件名

、、、、

我使用下面的代码将spark数据帧写入s3存储桶中。 spark_df. \ coalesce(1). \ write. \ option("header", "true"). \ mode("overwrite"). \ csv(bucket_name + "/" + bucket_path + "/csv") 在这里，我想要获取正在写入s3 bukcet的文件的名称，并希望将该文件用作后面代码部分的一部分。我已经解决了上面的问题，因为我们不能在将数据帧写入s3存储桶时给出文件名。我正在考虑迭代s3存储桶，

浏览 0提问于2018-06-18得票数 1

3回答

有关Server将数据从RDS导出到S3的文档混淆

、、、

在这个页面上：他们说，他们提供了一个存储过程，可以将CSV文件从文件系统上传到S3。下面的示例将名为data.csv的文件从D:\S3\seed_data\中的指定位置上载到由ARN指定的S3桶中的文件new_data.csv。 exec msdb.dbo.rds_upload_to_s3 @rds_file_path='D:\S3\seed_data\data.csv', @s3_arn_of_file='arn:aws:s3:::bucket_name/new_data.csv', @overwrite_file=1;

浏览 12提问于2021-06-01得票数 0

2回答

如何将文件名自动提取到数据框中，而不是手动指定

、

我正在尝试用Scala或python自动化我的spark代码，这就是我想要做的 s3存储桶中的文件格式为filename_2016_02_01.csv.gz 从s3存储桶中，spark代码应该能够选择文件名并创建数据帧 example Dataframe=sqlContext.read.format("com.databricks.spark.csv").options(header="true").options(delimiter=",").options(inferSchema="true").load("s3://

浏览 0提问于2016-02-04得票数 1

1回答

使用kms加密密钥将数据帧作为csv写入S3，而不提供密钥

、、、、

我已经通过spark dataframe创建了CSV文件，这些文件会自动加密KMS。作为参考，我给出了一个创建这些KMS加密文件的示例代码片段。如果你在写的时候看到，我不会给任何KMS密钥。如果你说出根本原因，那将会很有帮助。 val df=spark.read.format("csv").option("header", "true").load("s3:///test/App_IP.csv") df.createOrReplaceTempView("test") val df1=spark.sql("

浏览 2提问于2021-01-26得票数 1

1回答

如何将多个csv或json文件从S3读入火花jason

、、、

我可以读取一个csv文件myexample.csv，这是在一个s3 buket到火花数据。 df = spark.read.csv(s3n://mybucket/myexample.csv) 但是我如何读取桶中的所有csv文件，例如myexample1.csv、myexample2.csv、myexample.csv，它们都位于同一个存储桶s3://mybucket中。 df = spark.read.csv(s3n://mybucket/) ..This工作吗？

浏览 2提问于2019-11-18得票数 1

1回答

AWS EMR Apache Spark和VPC中的自定义S3端点

、、、

我在VPС中使用Apache Spark和Redshift，还使用AWS S3作为源数据和临时数据进行Redshift复制。目前，我怀疑对AWS的读/写性能不够好，根据以下讨论中的建议，我在VPC内创建了S3端点。现在，当我从S3加载数据时，我看不到创建S3端点之前和之后的任何性能差异。在Apache Spark中，我以以下方式读取数据： spark.read.csv("s3://example-dev-data/dictionary/file.csv") 我是否需要在AWS EMR Apache Spark上添加/配置一些额外的逻辑/配置，才能正确使用AWS S3端点？

浏览 0提问于2019-04-02得票数 0

2回答

如何在Java中并行运行spark程序

、、、、

所以我有一个java应用程序，它有spark maven依赖项，在运行它的时候，它会在运行它的主机上启动spark server。服务器实例有36个核心。我正在指定SparkSession实例，其中我并行地提到了内核的数量和其他配置属性，但是当我使用htop查看统计数据时，它似乎并没有使用所有的内核，而只使用了1个内核。 SparkSession spark = SparkSession .builder() .master("local") .appName("my

浏览 6提问于2018-10-06得票数 0

1回答

在PySpark中将CSV文件从多个目录转换为parquet

、、、、

我有来自多个路径的CSV文件，这些路径不是s3桶中的父目录。所有的表都有相同的分区键。 S3的目录： table_name_1/partition_key_1 = <pk_1>/partition_key_2 = <pk_2>/file.csv table_name_2/partition_key_1 = <pk_1>/partition_key_2 = <pk_2>/file.csv ... 我需要将这些csv文件转换为parquet文件，并将它们存储在具有相同目录结构的另一个s3桶中。另一个s3的目录： table_name_1/parti

浏览 1提问于2020-05-29得票数 1

回答已采纳

3回答

为什么在S3存储桶中加载CSV文件会有大量的任务？

、、

我有一个带有动态资源分配的小型spark独立集群，它使用aws作为存储，然后我启动一个spark s3，创建一个从s3存储桶中779.3KB的csv文件加载数据的hive外部表，当我执行sql "select count(1) from sales;“时，spark sql作业中恰好有798009个任务，就像每个字节的任务一样。"spark.default.parallelism“不起作用。有什么建议吗？

浏览 3提问于2019-01-21得票数 1

2回答

是否会在每次操作中从外部源读取数据？

、、

在星火外壳上，我使用下面的代码从csv文件中读取 val df = spark.read.format("org.apache.spark.csv").option("header", "true").option("mode", "DROPMALFORMED").csv("/opt/person.csv") //spark here is the spark session df.show() 假设这将显示10行。如果我通过编辑在csv中添加一个新行，那么调用df.show()是否会再次显示新行？

浏览 5提问于2016-12-05得票数 1

回答已采纳

3回答

将CSV文件从S3读取到Spark dataframe会如此缓慢吗？

、

我正在构建一个需要从S3加载数据集的应用程序。功能运行正常，但性能却出人意料地慢。数据集采用CSV格式。每个文件中大约有7M条记录(行)，每个文件大小为600-700MB。 val spark = SparkSession .builder() .appName("MyApp") .getOrCreate() val df = spark .read .option("header", "true") .option("inferSchema", "

浏览 2提问于2016-09-29得票数 12

回答已采纳

1回答

Scala Spark未读取忽略第一行标题并加载从第二行开始的所有数据

、

我在AWS EMR集群上有一个Scala Spark笔记本，可以从AWS S3存储桶加载数据。以前，我有如下的标准代码： var stack = spark.read.option("header", "true").csv("""s3://someDirHere/*""") 这会将多个文件目录(.txt.gz)加载到名为stack的Spark DataFrame对象中。最近，有新文件添加到此目录。新文件的内容看起来是一样的(我下载了几个文件，并使用Sublime Text和Notepad++打开它们)。我尝试

浏览 84提问于2020-10-30得票数 0

回答已采纳

2回答

火花数据处理中的操作错误

、、

我是星火框架的新手，在我的本地机器上做一些小任务来练习。我的任务是:我在S3中存储了365个压缩的csv文件，其中包含每天的日志。我想要建一个全年的数据集。我的方法是从桶中检索密钥，构建每日数据格式，将它们统一为月份数据，对它们进行同样的操作，并作为回报获得全年数据。它适用于我检索到的用于测试的一些样本数据。在构建DataFrames之前，我对文件进行解压缩，将未压缩的csv文件写入磁盘，并使用它创建DataFrame。问题是:如果我从磁盘中删除csv文件(使其成为临时文件)，在创建dataframe之后，我无法对dataframe执行任何操作(例如year_df.count())。抛出S

浏览 0提问于2017-01-09得票数 1

回答已采纳

1回答

红移复制无效数字，值'"'，位置0，类型:长整型

、、

我使用spark创建了一个CSV文件，如下所示： "\001").mode("overwrite").format("csv").save("s3://test123/testcsv001/") (“9月”，t1.write.option 然后在Redshift中尝试一个复制命令来加载CSV文件：从's3://test123/testcsv001/‘access_key_id’中复制schema123.table123删除‘secret_access_key’删除‘session_token’删除‘TIMEFORMAT

浏览 22提问于2020-05-01得票数 0

1回答

Pyspark从路径存储桶中读取csv文件: AnalysisException: S3不存在

、

在Google Colab中，我正在尝试让PySpark从S3存储桶中读取csv。这是我的代码： # Read in data from S3 Buckets from pyspark import SparkFiles url = "https://crypto-senti-nb.s3.amazonaws.com/filename.csv" spark.sparkContext.addFile(url) df = spark.read.csv(SparkFiles.get("filename.csv"), sep=",", header=T

浏览 32提问于2021-10-15得票数 0

1回答

PySpark:将输入文件写入单独的输出文件，而无需重新分区

、、

我有一个非常大的每日gzipped文件序列。我正在尝试使用PySpark重新保存所有S3格式的文件，以供以后使用。如果对于单个文件(例如，2012-06-01)，我这样做： dataframe = spark.read.csv('s3://mybucket/input/20120601.gz', schema=my_schema, header=True) dataframe.write.parquet('s3://mybucket/output/20120601') 它可以工作，但是因为gzip是不可拆分的，所以它运行在单个主机上，并且我没有从使用集群中获得

浏览 2提问于2017-12-16得票数 0

1回答

允许用户在Rails应用程序中下载CSV文件

我在我的S3存储桶中存储了一个CSV文件，我想在Rails中添加一个方法，这样用户就可以单击按钮并下载该文件。我在控制器中放入了以下内容 def s3_downloader(bucketName, key, localPath) # (1) Create S3 object s3 = Aws::S3::Resource.new(region: 'us-east-2') # (2) Create the source object sourceObj = s3.bucket(bucketName).object(key) # (3) Dow

浏览 5提问于2019-12-01得票数 1

1回答

使用Spark从S3读取csv时出现Py4JJavaError错误

、、、

我正在尝试用Spark从亚马逊网络服务的S3存储桶中读取CSV文件，目前正在通过Jupyter笔记本进行读取。在为spark设置亚马逊网络服务S3配置后，我在尝试读取CSV时遇到以下错误： Py4JJavaError: An error occurred while calling SOMERANDOMNAME.csv. : com.amazonaws.services.s3.model.AmazonS3Exception: Status Code: 400, AWS Service: Amazon S3, AWS Request ID: XXXXXXXXXX, AWS Error Cod

浏览 45提问于2021-02-10得票数 0

回答已采纳

2回答

如何在从json创建dataframe时不推断架构？

、、、

我不希望在从一组jsons创建数据帧时推断出inferSchema = 'false'模式，但我不能像从csv中读取时那样传递。下面是我读取数据的方式： df = spark.read.json(r's3://mypath/')

浏览 5提问于2017-12-12得票数 4

回答已采纳

1回答

AWS胶不能在s3中写达美湖

、、、

我正在工作的AWS胶，并创造了一个ETL工作，为上半身。我有一个s3桶，我把csv文件放在一个文件夹中。我正在从s3读取该文件，并希望使用以下代码使用增量湖(parquet文件)将其写回s3。 from delta import * from pyspark.sql.session import SparkSession spark = SparkSession.builder \ .config("spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension") \ .conf

浏览 5提问于2022-02-08得票数 2

1回答

具有多个s3角色的Spark会话

、、、

我有一个Spark作业，它从s3存储桶中读取文件，对它们进行格式化，然后将它们放入另一个s3存储桶中。我将使用(SparkSession) spark.read.csv和spark.write.csv功能来完成此任务当我读取文件时，我需要使用一个IAM角色(承担角色)，而当我写入文件时，需要删除承担的角色并恢复为我的默认角色。如果不是，有没有其他方法呢？任何和所有的帮助是感激的！

浏览 16提问于2020-09-24得票数 3

1回答

Apache Spark CSV到拼图，4,000列，20000个小文件

我有大量的csv文件(大约20000个)，这些文件中的大多数大约有4,000列，10%的文件可以稍微少一些或多一些列。我想将这些文件从S3加载到spark中，从CSV文件中推断出模式，然后合并模式以处理混合模式文件。然后，在减少分区数量后，将其写回S3作为拼图。 val df = spark.read.format("csv").option("header", "true").option("mergeSchema", "true").option("inferSchema", "

浏览 1提问于2018-07-05得票数 1

1回答

使用Apache Spark获取S3存储桶中所有文件名的列表

、、

我们有一个包含大量文件的S3存储桶。文件列表每天都在增长。我们需要一种方法来获取文件列表，并根据文件名中存在的元数据生成计数(group by)。我们不需要这个的内容。这些文件很大，而且包含二进制内容，因此下载它们并不是最佳选择。我们目前正在使用Spark Java API获取文件名列表，将它们存储在列表中，并使用S3进行处理。这在目前是可行的，因为文件的数量是数十万，但它不能扩展以满足我们未来的需求。有没有办法使用Spark完成整个处理过程？

浏览 3提问于2015-12-01得票数 5

1回答

如何使用pyspark从s3存储桶中读取csv文件

、、、

我使用的是Apache Spark 3.1.0和Python 3.9.6。我正在尝试从亚马逊网络服务的S3存储桶中读取csv文件，如下所示： spark = SparkSession.builder.getOrCreate() file = "s3://bucket/file.csv" c = spark.read\ .csv(file)\ .count() print(c) 但是我得到了以下错误： py4j.protocol.Py4JJavaError: An error occurred while calling o26.csv. : org.apa

浏览 167提问于2021-08-25得票数 2

回答已采纳

1回答

从S3读取到Spark时过滤数据

、、、、

我们正在迁移到AWS EMR/S3，并使用R进行分析(sparklyr库)。我们在S3中有500 in的销售数据，其中包含多个产品的记录。我们想要分析几个产品的数据，并且只想将文件的子集读取到EMR中。到目前为止，我的理解是spark_read_csv会获取所有的数据。在R/Python/Hive中有没有一种方法只读取我们感兴趣的产品的数据？

浏览 25提问于2018-05-31得票数 1

回答已采纳

1回答

火花:火花-csv花了太长时间

、、

我正试图使用Databricks DataFrame包和，从EMR集群上的S3上的CSV源创建一个 from pyspark.sql import SQLContext sqlContext = SQLContext(sc) df = sqlContext.read.format('com.databricks.spark.csv').options(header='true').load('s3n://h2o-airlines-unpacked/allyears.csv') df.first() 这不会在4m3.xlarge的集群上终止。我

浏览 0提问于2015-08-28得票数 3

3回答

加载本地文件(而不是HDFS)在Spark失败

、

我有一个问题--如何用sc.textFile在PySpark上加载本地文件(不是在HDFS上，也不是在PySpark上)。我读取，然后将sales.csv复制到主节点的本地(而不是HDFS)，最后执行以下操作 sc.textFile("file:///sales.csv").count() 但是它返回以下错误，即file:/click_data_sample.csv does not exist z:org.apache.spark.api.python.PythonRDD.collectAndServe.：调用Py4JJavaError时出错：ip-17x-xx-xx-xx

浏览 7提问于2016-02-01得票数 20

1回答

在S3中合并大量小csv文件(不同列大小)的最佳方法

、、、

我有一大堆小的csv文件(每个大约15kb )。这些csv文件具有不同的标头。我想将它们合并到一个包含所有列的csv文件中。最终，合并后的csv文件可能会超过100 be。合并文件时，如果列不存在，则添加此列并填充null。我从s3下载这些csv文件到EMR集群，然后使用Spark代码合并这些csv文件，并尝试使用python代码合并它们。从我所做的实验来看，Python代码比Spark运行得更好，但不是idea。有没有更好的主意？谢谢。

浏览 3提问于2018-06-07得票数 1

1回答

在Scala中使用dataset创建CSV

、、

我已经从scala中的数据集创建了CSV文件。它正在创建CSV文件，但是它是0字节的。当通过dbutils.fs.head(csv_path)读取时，其给出的错误 "java.lang.IllegalArgumentException:无法指向目录: csv_path“ ```result_dataset.coalesce(1) .write.format("com.databricks.spark.csv") .option(“字符集”，"UTF-8") .option("header"，"true") .optio

浏览 35提问于2020-10-15得票数 0

1回答

使用spark或aws step函数的datesuffix格式

、、、、

如何在aws步骤函数中的json文件中获得格式化日期示例json文件:通过aws上的内部CICD创建step函数 datesuffix格式为"04-05-2022“。 Parameters:{ "loads.$":$.loads", tasktimeOutseconds.$":"$.taskTimeOutSeconds", "dateSuffix.$":"$.cluster.Payload.Datesuffix", }, "Next"."

浏览 8提问于2022-04-05得票数 0

1回答

AWS emr驱动缸

、、、

我正在通过以下方法尝试在pyspark笔记本上使用AWS EMR 5.29中的外部驱动程序： #%%configure -f { "conf": {"spark.jars":"s3://bucket/spark-redshift_2.10-2.0.1.jar," "s3://bucket/minimal-json-0.9.5.jar," "s3://bucket/spark-avro_2.11-3.0.0.jar,"

浏览 3提问于2021-02-26得票数 1

回答已采纳

2回答

有效聚合星火中的多个CSV

、、、

请原谅我的简单问题，但我对火花/Hadoop还比较陌生。我正在尝试将一堆小CSV文件加载到Apache中。它们目前存储在S3中，但如果这样可以简化操作，我可以在本地下载它们。我的目标是尽可能有效地做到这一点。这似乎是一个耻辱，有一些单线程的主人下载和解析了一堆CSV文件，而我的数十名火花工作人员坐视不理。我希望有一种惯用的方式来分发这份工作。 CSV文件排列在一个目录结构中，如下所示： 2014/01-01/fileabcd.csv 2014/01-01/filedefg.csv ... 我有两年的数据，每天都有目录，每一天都有几百个CSV。所有这些CSV都应该有一个相同的模式，但当然可能有

浏览 6提问于2015-08-03得票数 5

回答已采纳

1回答

将Http请求FormFile上载到S3

、、

我正在创建一个微服务来处理上传到亚马逊S3的一些附件，我试图实现的是接受一个文件，然后将它直接存储到我的S3桶中，这是我当前的功能： func upload_handler(w http.ResponseWriter, r *http.Request) { file, header, err := r.FormFile("attachment") if err != nil { fmt.Fprintln(w, err) return } defer file.Close() fileSize, err := file.Seek(0, 2

浏览 4提问于2015-08-22得票数 5

回答已采纳

1回答

使用pyspark从S3读取csv作为spark数据帧(Spark2.4)

、、、、

我想从s3 (s3://test-bucket/testkey.csv)读取一个csv文件，作为使用pyspark的spark数据帧。我的集群运行在spark 2.4上。我不需要带任何infer_schema，凭据a.o.t.考虑到。并且csv文件不会作为粘合表被爬行。你可以粘贴你的pyspark代码，这是基于spark会话，并转换为csv到spark数据帧在这里？在此先致谢并致以最良好的问候

浏览 16提问于2019-10-07得票数 3

1回答

尝试通过AWS将S3桶名和文件夹路径作为命令行参数传递给EMR上的python脚本。

、、、、

我试图通过AWS将桶名和文件夹名传递给我的python脚本，如下所示： aws emr add-steps --cluster-id j-12XXXXXXXXX2R --steps Type=spark,Name=step0_do_something,Args=[--deploy-mode,cluster,--conf,spark.yarn.appExecutorEnv.PYTHON_EGG_CACHE=/tmp,--conf,spark.yarn.appMasterEnv.PYTHON_EGG_CACHE=/tmp,--conf,spark.executorEnv.PYTHON_EGG_CA

浏览 0提问于2019-11-26得票数 0

回答已采纳

2回答

解压缩多个*.gz文件并在spark中创建一个csv文件

、、、

我在S3桶中有多个文件，必须解压缩这些文件，并将所有文件合并到一个带有单个头的文件中。所有文件都包含相同的标题。数据文件如下所示。存储系统: S3桶。 part-0000-XXXX.csv.gz part_0001-YYYY.csv.gz part-0002-ZZZZ.csv.gz . . . . part-0010_KKKK.csv.gz. 我想要一个CSV文件从所有的文件，如上面所示。请帮助我如何解压缩和合并所有的文件。在解压缩并将所有文件合并到一个CSV中之后，我可以使用该文件与以前的文件进行数据比较。我使用的是spark 2.3.0和Scala2.11 非常感谢

浏览 1提问于2018-09-26得票数 1

回答已采纳

1回答

从AWS向aws EMR集群提交spark作业

、、、、

我正在尝试从命令行aws中正确地向我的aws集群添加一个火花步骤。一些背景：我有一个大的数据集(数千个.csv文件)，我需要阅读和分析。我有一个python脚本，看起来类似于： analysis_script.py import pandas as pd from pyspark.sql import SQLContext, DataFrame from pyspark.sql.types import * from pyspark import SparkContext import boto3 #Spark context sc = SparkContext.getOrCreate(

浏览 2提问于2018-06-04得票数 0

1回答

如何使用Python Jupyter Notebook使用KMS加密从S3读取文件

、、、

我正在尝试使用spark.read.csv从S3读取文件。但是，我无法读取使用KMS加密的文件。我有可用的KMS密钥。如何在配置时在spark会话中指定它们。

浏览 0提问于2021-02-09得票数 0

1回答

在s3上覆盖csv文件失败

、、、

当我从s3桶将数据加载到pyspark中时，进行一些操作(连接、联合)，然后尝试覆盖前面读取的相同路径(' data /csv/')。我得到了一个错误： py4j.protocol.Py4JJavaError: An error occurred while calling o4635.save. : org.apache.spark.SparkException: Job aborted. at org.apache.spark.sql.execution.datasources.FileFormatWriter$.write(FileFormatWriter.sca

浏览 0提问于2019-06-12得票数 0

1回答

从S3存储桶中读取大量CSV文件

、、、、

我想从S3存储桶中读取大量csv文件。CSV文件位于不同的分区中。我使用Boto3列出csv的所有路径。然后使用for循环对列表进行迭代，将csv文件读入spark dataframe。我需要一种更好的优化方法来从S3路径读取大量文件，因为循环是一种线性方法，需要大量时间才能完成。列出所有对象： self.all_objects = [file_path['Key'] for resp_content in self.s3.get_paginator("list_objects_v2").paginate(Bucket='bucketName'

浏览 36提问于2020-09-09得票数 0

2回答

在Spark中，在CSV和JSON上查询DataFrames是否有性能上的差异

、、、

我在AWS S3上有一个CSV文件和一个JSON文件(每个文件都有500万行/记录)。它们包含完全相同的数据，只是格式不同。在有10个任务节点的EMR集群上，我启动了Spark (10个执行器，40个执行器核心)，并创建了两个DataFrames:一个针对CSV，一个针对JSON。对构建在JSON文件上的DF的查询运行速度比对CSV构建的DF的类似查询快2-3倍。我没有发现任何关于跨存储文件格式的性能差异的信息。有没有人知道为什么对JSON上的DF的查询比CSV上的DF运行得更快？在下创建数据仓库的代码针对JSON文件创建DF： val hc_json = new org.apach

浏览 5提问于2015-11-03得票数 3

2回答

在Rails 4中使用Roo从流中读取CSV文件

、、

我在这里有另一个问题，，但我没有被咬到-所以重述一下：我在S3存储桶中有一个CSV文件，我想在基于Heroku的应用程序中使用Roo读取它(即没有本地文件访问)如何从流中打开CSV文件？或者，有没有更好的工具来做这件事？我使用的是Rails4，Ruby2。注意，如果我从表单中张贴，我可以成功地打开CSV进行阅读。我如何调整它以从S3存储桶中截取文件？

浏览 0提问于2014-06-12得票数 1

1回答

自定义路径到S3的火花写入压缩CSV

、

我试图使用用Scala编写的Spark向S3简单地编写一个CSV：我在输出桶中注意到以下文件：...PROCESSED/montfh-04.csv/part-00000-723a3d72-56f6-4e62-b627-9a181a820f6a-c000.csv.snappy 而它只应该是montfh-04.csv 代码： val processedMetadataDf = spark.read.csv("s3://" + metadataPath + "/PROCESSED/" + "month-04" + ".csv"

浏览 3提问于2020-10-20得票数 0