用glueContext.read.json从s3中读取json文件来粘合pyspark得到错误的结果

问题描述：用glueContext.read.json从s3中读取json文件来粘合pyspark得到错误的结果。

回答： glueContext.read.json是AWS Glue提供的用于读取JSON文件的函数。它可以从S3中读取JSON文件，并将其转换为DataFrame，以便在PySpark中进行处理和分析。然而，当使用glueContext.read.json时，可能会遇到一些错误导致得到错误的结果。

解决这个问题的方法取决于具体的错误原因。以下是一些常见的错误和解决方法：

错误："Unable to infer schema for JSON. It must be specified manually." 解决方法：这个错误表示无法自动推断JSON文件的模式。你可以尝试手动指定模式，使用glueContext.create_dynamic_frame.from_catalog函数来创建DynamicFrame，并在其中指定模式。
示例代码：
示例代码：
错误："Path does not exist: s3://your_bucket/your_file.json" 解决方法：这个错误表示指定的S3路径不存在。请确保你提供的S3路径是正确的，并且文件确实存在于指定的路径中。
示例代码：
示例代码：
错误："An error occurred while calling z:com.amazonaws.services.glue.util.JsonOptions.toJson." 解决方法：这个错误可能是由于JSON文件中包含无效的JSON格式导致的。请确保你的JSON文件是有效的，并且符合JSON的语法规范。
示例代码：
示例代码：

以上是针对常见错误的解决方法。如果你遇到了其他错误，请提供具体的错误信息，以便更好地帮助你解决问题。另外，如果你需要更多关于AWS Glue和PySpark的信息，可以参考腾讯云的相关产品和文档：

希望以上信息对你有帮助！如果还有其他问题，请随时提问。

Spark和数据的连续处理

、、、

我是Spark的新手，但我正在尽可能多地阅读。我有一个小项目，其中多个数据文件(在gzip中)将每小时连续地放在一个S3存储桶中。我需要能够打开/读取这些gzip文件，并在它们之间合并/聚合数据。因此，我需要以整体的方式来看待它们。如何使用Amazon AWS提供的哪些技术和工具？我是在S3文件夹中创建临时文件，还是在内存中保留数据帧，或者使用某个数据库并在每小时后清除数据？所以，我寻找的不仅仅是一段代码，而是一些想法。到目前为止，在亚马逊网络服务中，我已经编写了一个pyspark脚本，它一次读取一个文件，并在output S3文件夹中创建一个输出文件。但这给我留下了每个小时的多个输出文件。

浏览 0提问于2020-01-23得票数 0

2回答

有没有办法在运行AWS Glue ETL作业时从S3存储桶中读取文件名并命名输出文件名。pyspark提供了这样做的方法吗？

、、、、

我正在通过从多个名为rawpart1.json和rawpart2.json的S3存储桶中读取json文件来运行AWS Glue ETL作业。验证两个文件中的字段以及两个S3存储桶中的文件名。我可以读取和更改文件名吗？ETL job运行后，在S3存储桶中为ETL job的输出创建文件名。目前我得到的文件名是run-15902070851728-part-r-00000。让我知道我们是否可以在pyspark中做这件事？谢谢

浏览 19提问于2020-06-09得票数 1

1回答

在s3上标记spark读取的对象

、、、

我在亚马逊s3上使用pyspark读取s3存储桶上的对象。我的存储桶是由许多json文件组成的，我读取了这些文件，然后将其另存为拼图文件 spark.read.json('s3://my-bucket/directory1/') spark.write.parquet('s3://bucket-with-parquet/', mode='append') 每天我都会上传一些新的文件到s3://my-bucket/directory1/上，我想更新它们到s3://bucket-with-parquet/，有没有一种方法可以确保我不会两次更新数据。我

浏览 1提问于2019-12-03得票数 2

2回答

PySpark:如何加快sqlContext.read.json的速度？

、、

我正在使用下面的pyspark代码从s3桶中读取数千个JSON文件 sc = SparkContext() sqlContext = SQLContext(sc) sqlContext.read.json("s3://bucknet_name/*/*/*.json") 这需要大量时间来读取和解析JSON文件(~16分钟)。我如何并行化或加速这个过程？

浏览 1提问于2018-06-20得票数 2

1回答

通过spark dataframe读取S3文件时，粘合书签不起作用

、、、

我有一个存储.gz文件(json格式)的S3存储桶。每小时将有更多的文件发送到此存储桶。我想使用Glue增量地(每天)从S3存储桶中读取数据，将.gz转换为拼接，然后写回另一个S3存储桶。我想我可以使用Glue书签来完成增量文件的读取/转换/写入。然而，我发现如果我读取spark dataframe中的.gz文件，书签就不起作用了。换句话说，我的下面的胶水作业不会以增量方式读取文件。它读取该存储桶中的所有文件。我确实在胶水作业中启用了Bookmark。我错过了什么吗？是否需要通过glue动态数据帧而不是spark数据帧读取文件？我实际上不知道如何通过glue动态数据帧正确读取.gz文件

浏览 24提问于2020-12-30得票数 1

1回答

用pyspark/python在AWS S3上列出目录中的文件

、、

因此，我对AWS、S3、pyspark和linux都很陌生。我不知道从哪里开始。以下是我的问题：在linux中，我可以发出以下命令，并可以在文件夹中看到文件： aws s3 ls 's3://datastore/L2/parquet' 使用python做类似的事情不起作用。 import os os.listdir('s3://datastore/L2/parquet') 它会产生错误： Traceback (most recent call last): File "<stdin>", line 1, in <modul

浏览 1提问于2017-03-29得票数 1

回答已采纳

4回答

AWS Glue自动创建作业

、、、、

我有pyspark脚本，我可以在AWS胶水中运行。但每次我从UI创建作业，并将代码复制到那里的作业.Is时，无论如何我都可以从s3存储桶中的文件自动创建作业。(我有所有的库和胶水上下文，将在运行时使用)

浏览 1提问于2019-01-15得票数 2

1回答

在s3中使用pyspark合并多个小json文件

、、

我是spark的新手。我在s3存储桶的子目录中有多个小json文件(1kb)。我想合并单个目录中的所有文件。使用pyspark有什么优化的方法吗？目录结构: region/year/month/day/hour/multiple_json_files 我有许多目录，如上所述，并希望合并所有的文件在一个单一的目录。附言:我试过使用python，但花了更多的时间，试过s3distcp，但结果是一样的。有人能在这方面帮我吗？

浏览 1提问于2020-02-16得票数 0

2回答

如何读取电火花中s3上的表格数据？

、、、、

在s3目录s3://mybucket/my/directory/中有一些选项卡分隔的数据。现在，我要告诉pyspark，我想使用\t作为分隔符，只在下面这样的一个文件中读取： from pyspark import SparkContext from pyspark.sql import HiveContext, SQLContext, Row from pyspark.sql.types import * from datetime import datetime from pyspark.sql.functions import col, date_sub, log, mean, to

浏览 3提问于2017-07-17得票数 1

回答已采纳

1回答

如何使用pyspark从s3存储桶中读取csv文件

、、、

我使用的是Apache Spark 3.1.0和Python 3.9.6。我正在尝试从亚马逊网络服务的S3存储桶中读取csv文件，如下所示： spark = SparkSession.builder.getOrCreate() file = "s3://bucket/file.csv" c = spark.read\ .csv(file)\ .count() print(c) 但是我得到了以下错误： py4j.protocol.Py4JJavaError: An error occurred while calling o26.csv. : org.apa

浏览 167提问于2021-08-25得票数 2

回答已采纳

1回答

加载多个文件并丢失一个文件时，PySpark作业失败

、、、、

当使用PySpark从S3加载多个JSON文件时，我会得到一个错误，如果缺少一个文件，Spark作业就会失败。由: org.apache.hadoop.mapred.InvalidInputException:输入模式s3n://示例/示例/2017-02-18/*..json匹配0个文件引起的这就是我如何将最后5天添加到我在PySpark的工作中。 days = 5 x = 0 files = [] while x < days: filedate = (date.today() - timedelta(x)).isoformat() path =

浏览 3提问于2017-02-20得票数 3

1回答

当尝试从FileSystem读取带有火花的文件列表时，方案"s3“不使用EC2

、、、、

我试图提供一个文件列表，以便在需要的时候读取这些文件(这就是为什么我不希望使用boto或其他任何方法将所有文件预下载到实例中，然后才将它们读入spark“本地”)。 os.environ['PYSPARK_SUBMIT_ARGS'] = "--master local[3] pyspark-shell" spark = SparkSession.builder.getOrCreate() spark.sparkContext._jsc.hadoopConfiguration().set('fs.s3.access.key', credential

浏览 9提问于2022-02-27得票数 0

1回答

为S3桶编写火花数据帧字典

、、、

假设我们有一个PySpark数据字典。有办法把这本字典写到S3桶里吗？这样做的目的是读取这些PySpark数据帧，然后将它们转换为熊猫数据帧。下面是一些代码和我得到的错误： columns = ["language","users_count"] data = [("Java", "20000"), ("Python", "100000"), ("Scala", "3000")] #spark = SparkSession.builder.appName('

浏览 7提问于2021-09-24得票数 1

回答已采纳

1回答

在将大型JSON文件转换为JSON之前，如何使用AWS glueContext拆分/块大型JSON文件？

、、、、

我正在尝试使用AWS Glue将一个20 to的JSON gzip文件转换为parquet。我已经在下面的代码中使用Pyspark设置了一个作业。我收到了这条日志警告消息： LOG.WARN: Loading one large unsplittable file s3://aws-glue-data.json.gz with only one partition, because the file is compressed by unsplittable compression codec. 我想知道是否有办法分割/块文件？我知道我可以用熊猫来做这件事，但不幸的是，这花费了太多的时间(

浏览 8提问于2022-01-21得票数 0

回答已采纳

1回答

如何连接s3文件而不访问密钥详细信息

、、、

我们有一台unix机器，可以直接访问我们的s3桶。我们能够从unix机器上运行所有cli命令，比如"aws s3 ls“。现在，我们需要从那里读取一个文件，并使用pyspark创建一个星火数据框架。因此，现在需要对unix框进行ssh连接，并读取该文件并创建星火数据框架。有没有人能帮助我们如何访问s3而不用使用pyspark访问关键细节。

浏览 2提问于2022-10-19得票数 0

1回答

将AWS glue输出格式化为JSON对象

、

这是我在AWS GLUE的pyspark工作中得到的结果 {a:1,b:7} {a:1,b:9} {a:1,b:3} 但是我需要在s3上编写这些数据，并将其以JSON数组格式发送给一个应用程序接口 [ {a:1,b:2}, {a:1,b:7}, {a:1,b:9}, {a:1,b:3} ] 我尝试将输出转换为DataFrame，然后应用toJSON() results = mapped_dyF.toDF() jsonResults = results.toJSON().collect() 但是现在无法用'write_dynamic_frame.from_options&#

浏览 18提问于2019-07-28得票数 1

1回答

将文件从S3存储桶读取到PySpark数据帧Boto3

、、、

如何将S3存储桶中的大量文件加载到单个PySpark数据帧中？我在一个EMR实例上运行。如果文件是本地的，我可以使用SparkContext textFile方法。但是当文件在S3上时，我如何使用boto3加载多个不同类型的文件(CSV，JSON，...)转换成一个单独的数据帧进行处理？

浏览 0提问于2018-05-29得票数 3

回答已采纳

1回答

AWS Glue无法读取JSON Snappy文件

、、、

我在PySpark中读取AWS Glue作业的数据时遇到问题：数据从AWS消防软管(示例数据)发送到s3桶，存储为JSON，并使用snappy进行压缩。我能够用spark.read.json()从遗留的spark.read.json读取数据，但是使用from_catalog或from_options方法无法使用Glue动态框架(模式根本没有解析)：火花遗物DataFrame # import from legacy spark read spark_df = spark.read.json("s3://my-bucket/sample-json-hadoop-snappy/

浏览 1提问于2020-06-11得票数 4

回答已采纳

1回答

AWS胶水中的pyspark跳过错误文件

、

我正在使用AWS Glue中的pyspark来读取ETL100K S3文件，但是，我没有读取数十个文件的权限。我使用了以下代码： datasource0 = glueContext.create_dynamic_frame_from_options("s3", {'paths': ["s3://mykkkk-test"], 'recurse':True, 'groupFiles': 'inPartition', 'groupSize': '

浏览 7提问于2020-03-23得票数 2

2回答

从拼花文件中创建pyspark数据格式

、

我在火星雨方面还很新，我还在努力弄清楚到底是谁干的。我想要做的是在内存中加载一个拼花文件之后，使用pyarrow，我试着使它成为。但我搞错了。 --我要提到的是，我并不是直接阅读pyspark，因为s3中的文件给了我另一个关于“s3"的错误，所以我试图解决这个问题。下面我有一个可重复的例子。 import pyarrow.parquet as pq import s3fs s3 = s3fs.S3FileSystem() parquet_file=pq.ParquetDataset('s3filepath.parquet',filesystem=s3) sc = S

浏览 1提问于2019-07-29得票数 0

1回答

S3和Spark:文件大小和文件格式的最佳实践

、、

我需要读取数据(来自一个包含5列的RedShift表，表的总大小约为500 job 1tb)，通过PySpark将数据从PySpark读入Spark，以完成每天的批处理任务。是否有任何最佳做法：我如何用S3存储数据的首选文件格式？(格式是否重要？) 最佳文件大小？任何资源/链接，可以指出我的正确方向，也将发挥作用。谢谢!

浏览 1提问于2019-07-10得票数 1

回答已采纳

1回答

将JSON转换为ORC [AWS]

、、、、

这就是我的情况:我有一个将json文件轮换到s3存储桶的应用程序。我需要转换成ORC格式的文件，以便从雅典娜或EMR咨询。我的第一次尝试是在Node中编写一个lambda，但我没有找到任何用于转换的模块。我认为用胶水或电子病历更容易做到，但我找不到解决方案。有什么帮助吗？谢谢!

浏览 3提问于2018-03-17得票数 2

1回答

在aws glue pyspark作业中从s3加载JSON

、、、、

我正在尝试从glue pyspark脚本中的s3存储桶中检索JSON文件。我在aws glue中的作业中运行此函数： def run(spark): s3_bucket_path = 's3://bucket/data/file.gz' df = spark.read.json(s3_bucket_path) df.show() 在此之后，我得到: AnalysisException: u‘路径不存在: s3://bucket/data/file.gz;’ 我搜索了这个问题，但没有找到任何足够相似的东西来推断问题在哪里。我认为访问存储桶可能存在权限问

浏览 0提问于2018-08-14得票数 0

2回答

从Glue Catalog和Glue Py Spark脚本中的动态路径同步CSV文件

、、、

我每天都将CSV文件存储在亚马逊网络服务s3中。下面是我的S3文件路径结构： s3://data-dl/abc/d=2019-09-19/2019-09-19-data.csv 在此结构中，将每天生成s3文件路径的日期部分。现在我想使用AWS glue for ETL将数据从S3传输到Redshift。要使用它，我如何在数据目录中添加S3路径？我只想同步最近使用的文件夹CSV文件。另外，对于Job part，我如何在Glue Pyspark脚本中声明此动态路径？

浏览 1提问于2019-09-19得票数 0

2回答

Spark流处理二进制数据文件

、

我使用的是pyspark 1.6.0。我有现有的pyspark代码从亚马逊网络服务的S3桶读取二进制数据文件。其他Spark/Python代码将解析数据中的位，将其转换为int、string、boolean等。每个二进制文件都有一条数据记录。在PYSPARK中，我使用: sc.binaryFiles("s3n://.......")读取二进制文件。这很有效，因为它提供了一个元组(文件名和数据)，但我正在尝试找到一个等效的PYSPARK流API来读取二进制文件作为流(如果可以的话，希望也是文件名)。我尝试过:binaryRecordsStream(目录，recordLen

浏览 3提问于2016-06-29得票数 6

1回答

如何从S3桶中的最新文件中获取日期

、、

我得到了这样的要求:在PySpark中，我需要从s3中的文件中获取最新的日期。如何使用Pyspark代码获取日期？ s3文件路径，示例： "s3://bucketname/folderpath/2021/10/10/file.parquet, s3://bucketname/folderpath/2021/10/08/file.parquet, s3://bucketname/folderpath/2021/10/05/file.parquet, s3://bucketname/folderpath/2021/10/02/file.parquet" Output：从S3获取最

浏览 1提问于2021-11-15得票数 0

1回答

异常: Java网关进程在使用pyspark发送其端口号之前退出

、、、

我在一台jupyter笔记本上使用python和pyspark。我正在尝试从亚马逊网络服务的s3存储桶中读取几个拼图文件，并将它们转换为单个json文件。这就是我所拥有的： from functools import reduce from pyspark.sql import DataFrame bucket = s3.Bucket(name='mybucket') keys =[] for key in bucket.objects.all(): keys.append(key.key) print(keys[0]) from pyspark.s

浏览 3提问于2020-07-18得票数 1

1回答

火花:火花-csv花了太长时间

、、

我正试图使用Databricks DataFrame包和，从EMR集群上的S3上的CSV源创建一个 from pyspark.sql import SQLContext sqlContext = SQLContext(sc) df = sqlContext.read.format('com.databricks.spark.csv').options(header='true').load('s3n://h2o-airlines-unpacked/allyears.csv') df.first() 这不会在4m3.xlarge的集群上终止。我

浏览 0提问于2015-08-28得票数 3

1回答

使用pyspark解析json数据

、

我正在使用pyspark读取下面的json文件： { "data": { "indicatr": { "indicatr": { "id": "5c9e41e4884db700desdaad8"}}}} 我写了下面的python代码： from pyspark.sql import Window, DataFrame from pyspark.sql.types import * from pyspark.sql.types import StructType from py

浏览 22提问于2019-11-28得票数 0

2回答

火花数据并行读取

、

当使用吡火花时，您可以在sc.textFile方法中设置减少的数量，这样您就可以更快地从S3中读取一个文件，就像解释的一样。这很好，但从Spark1.3开始，我们也可以开始使用DataFrames。对于星火DataFrames来说，这样的事情也可能发生吗？我正在尝试将它们从S3加载到一个星火集群(它是通过创建的)。基本上，我试图让这段代码对非常大的“data.json”文件快速运行： from pyspark import SparkContext from pyspark.sql import SQLContext sc = SparkContext(CLUSTER_URL, 'i

浏览 5提问于2015-05-01得票数 0

回答已采纳

1回答

当将Json文件从一个s3桶复制到另一个s3桶时，json文件无法识别？

、

我是AWS的新手。我在S3桶中有四个json文件。我只需要将这四个JSON文件复制到另一个S3桶中。下面是我在S3桶中的JSON文件 02-12.json03-12.Json04-12.Json05-12.Json 当复制到另一个桶中时，我得到的结果如下我使用下面的代码 import sys from awsglue.transforms import * from awsglue.utils import getResolvedOptions from pyspark.context import SparkContext from awsglue.context import

浏览 13提问于2022-09-29得票数 0

1回答

是否有办法在EMR作业完成后自动删除检查点文件夹？

、、

我在我的pyspark代码中创建和使用检查点。由于我使用的是非常大的数据帧，因此随着时间的推移，它们的大小往往会膨胀。有没有办法在作业完成后删除检查点文件夹？例如，如下伪代码所示： from pyspark.sql import SparkSession spark = SparkSession.builder.getOrCreate() sc = spark.sparkContext spark.sparkContext.setCheckpointDir("s3://path/Checkpoint_Folder") df=spark.read.parquet("s

浏览 2提问于2021-05-02得票数 1

3回答

如何在本地模式下运行的pyspark中读取S3？

、、、

我使用的是PyCharm 2018.1，使用的是Python3.4，其中的Spark2.3是通过pip安装在一个虚拟环境中的。本地主机上没有安装hadoop，因此没有Spark安装(因此没有SPARK_HOME、HADOOP_HOME等)。当我尝试这样做时： from pyspark import SparkConf from pyspark import SparkContext conf = SparkConf()\ .setMaster("local")\ .setAppName("pyspark-unittests")\ .se

浏览 0提问于2018-05-05得票数 4

回答已采纳

1回答

有没有一种方法可以通过清单文件自动将数据从S3导入Quicksight？

、、

我的数据每天都存储在一个新的文件夹中。例如: /2021/04/01 /2021/04/02等等。我正在使用下面的清单文件导入数据： { "filelocations": [ { "URIPrefixes": [ "s3://<folder-name>/2021/04/02/" ] } ], "globalUploadSettings": { "format&

浏览 3提问于2021-04-03得票数 0

1回答

如何在PySpark中读取DBF文件

、、、、

我需要在.DBF中读取和处理PySpark文件，但是我没有得到任何库，我怎么能像读取CSV、JSON、Parquet或其他文件那样读取它。请帮助阅读此文件。我只是在起跑线上挡着。创建火花会话后，如何读取.DBF文件。dbfread是python中用于读取dbf文件的库。但是我需要用PySpark阅读，而不仅仅是使用Python。代码： from pyspark.sql import SparkSession spark = (SparkSession.builder .master("local[*]") .appName("dbf-file-read

浏览 9提问于2022-01-29得票数 0

2回答

如何并行读取多个文件作为DataFrames？

、

我有一个定义好的S3文件路径列表，我想将它们读为DataFrames： ss = SparkSession(sc) JSON_FILES = ['a.json.gz', 'b.json.gz', 'c.json.gz'] dataframes = {t: ss.read.json('s3a://bucket/' + t) for t in JSON_FILES} 上面的代码工作，但以一种意想不到的方式。当代码被提交到星区集群时，只读取一个文件，只占用一个节点。是否有更有效的方式读取多个文件？一种使所有节点同时工作的方法？更多

浏览 3提问于2018-01-22得票数 0

回答已采纳

2回答

使用Kafka将拼花文件写入S3 Sink

、、、

条件：代码应该读取卡夫卡主题中的消息，并将其写成S3中的拼花文件。在这里，我使用Pyspark编写了Kafka，并且我能够成功地将JSON文件写入s3接收器。 *工作守则：* 火花-2.4.4封装- org.apache.spark:spark-sql-kafka-0-10_2.11:2.4.4 spark = SparkSession\ .builder \ .appName("Python-EMR-KAFKA") \ .config("spark.serializer", "org.apac

浏览 21提问于2022-04-22得票数 0

1回答

在Spark中读取100万个JSON文件时AWS胶中的StackOverflowError

、、、、

如果我们试图从S3加载100多万个JSON文件，作为AWS作业的一部分，就会发生错误 spark_df = spark.read.load(s3_json_path, format='json') 70万个文件工作正常，但超过100万个文件导致一个StackOverflowError.我使用了Python 3、Glue 2.0、工人类型G.1X和10名工人(使用G2X或更多的工人来增加容量没有帮助)。堆栈跟踪是 ERROR [main] glue.ProcessLauncher (Logging.scala:logError(70)): Error from Python:Tr

浏览 5提问于2021-06-08得票数 0

回答已采纳

2回答

用资源问题粘合PySpark作业失败

、、

我正在试着从s3读取一个大的json文件(大约87 job )。我必须从这个文件中删除重复文件，将该文件分解为多个较小的文件，然后将其保存回s3。当我试图通过运行下面的工作来做到这一点时。我要进入资源issues.Is有一个方法，我可以优化这个？谢谢你提前提供的帮助。 from pyspark.sql import SparkSession if __name__ == '__main__': app_name = "test" spark = SparkSession.builder.appName(app_name).getOrCrea

浏览 2提问于2020-06-11得票数 0

回答已采纳

1回答

如何获得文件/文件创建的火花df.write？

、、、

我需要捕获作为df.write.parquet("s3://bkt/folder", mode="append")命令的结果创建的拼图文件。我在AWS EMR pyspark上运行这个。我可以使用awswrangler和wr.s3.to_parquet()来实现这一点，但这并不真正适合我的EMR spark用例。有这样的功能吗？我想要s3://bkt/文件夹中spark写入的文件列表 Thx全部

浏览 16提问于2021-05-05得票数 0

1回答

管理24 GB的S3文件的理想群集大小是多少

、、、、

我目前正在使用这个数据集s3://commoncrawl/crawl-001/2008/06/19/1/。它的大小是24 S3，我正在尝试将其分离为文本/html请求，并将其保存在我的S3存储桶中。代码一切正常，但当我试图将它保存到存储桶中时，我的记忆出现了问题： Reason: Container killed by YARN for exceeding memory limits. 11.1 GB of 11 GB physical memory used. 最初，我从具有两个从节点m5.xlarge的主节点开始，后来我尝试将主节点和从节点与m5.2xlarge放在一起，但这是不够的。

浏览 15提问于2021-09-08得票数 0

回答已采纳

1回答

可以在不对DeltaLake _delta_log产生负面影响的情况下删除底层拼花文件吗？

、、、

在.vacuum()表上使用DeltaLake非常慢(参见)。如果我手动删除了底层的json文件，没有添加一个新的.checkpoint.parquet日志文件，或者添加了一个新的.checkpoint.parquet文件并更改指向它的_delta_log/_last_checkpoint文件，那么对DeltaLake表的负面影响会是什么？显然，时间旅行，即加载以前版本的表格，依赖于我删除的拼花文件，是行不通的。我想知道的是，在当前版本的DeltaLake表中是否会出现读取、写入或附加问题？我想在pySpark上做的事情： ### Assuming a working SparkSess

浏览 1提问于2020-08-22得票数 1

1回答

创建AWS胶水作业需要爬虫吗？

、、、、

我正在通过下面的页面：来学习“用Pyspark来学习Glue”。我的问题是:创建胶水作业需要爬虫&在湖中创建数据库吗？我的aws角色有一些问题，我没有被授权在LakeFormation中创建资源，所以我想我是否可以跳过它们，只创建一个胶水作业并测试我的脚本？例如，我只想对一个输入的.txt文件进行测试，我将它存储在S3中，我还需要爬虫吗？我是否可以使用boto3创建一个胶水作业来测试脚本并对数据进行预处理并将数据写回s3？

浏览 3提问于2021-02-07得票数 3

回答已采纳

1回答

如何合并S3存储桶中的CSV文件并使用AWS Glue将其保存回S3

、、、、

目标是使用胶水将数据(csv文件)从一个S3存储桶转换到另一个S3存储桶。我已经尝试过了：我创建了一个CSV分类器。我创建了一个爬虫来扫描S3存储桶中的数据。我被卡住的地方：如果不将输出保存到任何关系数据库服务或其他数据库服务中，则无法找到如何将输出再次存储在S3中。因为胶水输出要求数据库输出，而我没有也不想使用它。有没有什么方法可以在不使用任何其他数据库系统的情况下实现这个目标，只需使用普通的S3、Glue？更多信息示例单个CSV文件，我正在尝试合并分隔符为";“的分类器 Crawler配置爬网程序结果(未检测到架构)

浏览 1提问于2020-09-10得票数 0

2回答

从s3子目录读取PySpark中的数据

、、、、

我想从一个S3桶中读取所有的拼板文件，包括子目录中的所有文件(这些实际上是前缀)。在S3 url中使用通配符(*)只适用于指定文件夹中的文件。例如，使用此代码将只读取target/文件夹下的拼花文件。 df = spark.read.parquet("s3://bucket/target/*.parquet") df.show() 假设我在我的s3桶中有这样一个结构： "s3://bucket/target/2020/01/01/some-file.parquet" "s3://bucket/target/2020/01/02/some-file.pa

浏览 1提问于2020-10-08得票数 2

回答已采纳

2回答

通过配置文件使用glue (Python/Pyspark)遍历从源代码到s3的多个表？

、、、、

我希望使用glue将关系数据库中的多个表摄取到s3中。表的详细信息显示在配置文件中。配置文件是一个json文件。如果有一段代码可以遍历多个表名并将这些表摄取到s3中，这会很有帮助。glue脚本是用python (pyspark)编写的下面是配置文件的示例： {"main_key":{ "source_type": "rdbms", "source_schema": "DATABASE", "source_table": "DATABASE.Tabl

浏览 39提问于2021-10-29得票数 0

1回答

如何从datafram列中的路径读取AWS上pyspark中的多个Json文件？

、、

我需要使用pypark读取一堆Json文件，S3上的文件路径在我有的一个数据帧中。如何在一个pyspark脚本中读取所有这些文件？谢谢! 数据报格式如下例所示 |id|S3Location +----------------+-------------- |a|s3://path1/path6/yyy.json.gz| |b|s3://path3/path7/xxx.json.gz| |c|s3://path3/path8/aaa.json.gz| |c|s3://path4/path9/bbb.json.gz|

浏览 2提问于2020-03-10得票数 0

2回答

火花性能问题-将分区作为单个文件写入S3

、、、、

我正在运行一个火花作业，其任务是扫描一个大文件并将其分割成较小的文件。这个文件是Json格式的，我试图用一个特定的列(id)来划分它，并将每个分区作为一个单独的文件保存到S3中。文件大小约为12 GB，但id有大约500000个不同的值。查询所用的时间几乎是15个小时。我能做些什么来提高性能呢？对于这样的任务来说，星火是一个糟糕的选择吗？请注意，我确实可以确保源作为每个id的固定行数。 import sys from pyspark.context import SparkContext from awsglue.context import GlueContext from pyspark.

浏览 3提问于2020-08-01得票数 1

1回答

AWS emr驱动缸

、、、

我正在通过以下方法尝试在pyspark笔记本上使用AWS EMR 5.29中的外部驱动程序： #%%configure -f { "conf": {"spark.jars":"s3://bucket/spark-redshift_2.10-2.0.1.jar," "s3://bucket/minimal-json-0.9.5.jar," "s3://bucket/spark-avro_2.11-3.0.0.jar,"

浏览 3提问于2021-02-26得票数 1

回答已采纳

3回答

加载本地文件(而不是HDFS)在Spark失败

、

我有一个问题--如何用sc.textFile在PySpark上加载本地文件(不是在HDFS上，也不是在PySpark上)。我读取，然后将sales.csv复制到主节点的本地(而不是HDFS)，最后执行以下操作 sc.textFile("file:///sales.csv").count() 但是它返回以下错误，即file:/click_data_sample.csv does not exist z:org.apache.spark.api.python.PythonRDD.collectAndServe.：调用Py4JJavaError时出错：ip-17x-xx-xx-xx

浏览 7提问于2016-02-01得票数 20