使用spark从S3读取禁止的错误_使用Spark从S3读取csv时出现Py4JJavaError错误_使用pyspark从S3读取csv作为spark数据帧(Spark2.4) - 腾讯云开发者社区

、、、

我不希望在从一组jsons创建数据帧时推断出inferSchema = 'false'模式，但我不能像从csv中读取时那样传递。下面是我读取数据的方式： df = spark.read.json(r's3://mypath/')

浏览 5提问于2017-12-12得票数 4

回答已采纳

1回答

断言失败:检测到冲突的目录结构。可疑路径

、、、

我正在尝试从亚马逊网络服务s3读取数据，我遇到了错误。 s3存储桶和路径示例如下： s3://USA/Texas/Austin/valid s3://USA/Texas/Austin/invalid s3://USA/Texas/Houston/valid s3://USA/Texas/Houston/invalid s3://USA/Texas/Dallas/valid s3://USA/Texas/Dallas/invalid s3://USA/Texas/San_Antonio/valid s3://USA/Texas/San_Antonio/invalid 当我试着读成 sp

浏览 7提问于2019-08-03得票数 4

1回答

如何使用pyspark从s3存储桶中读取csv文件

、、、

我使用的是Apache Spark 3.1.0和Python 3.9.6。我正在尝试从亚马逊网络服务的S3存储桶中读取csv文件，如下所示： spark = SparkSession.builder.getOrCreate() file = "s3://bucket/file.csv" c = spark.read\ .csv(file)\ .count() print(c) 但是我得到了以下错误： py4j.protocol.Py4JJavaError: An error occurred while calling o26.csv. : org.apa

浏览 167提问于2021-08-25得票数 2

回答已采纳

2回答

星火拼接s3错误: AmazonS3Exception:状态代码: 403，亚马逊服务:亚马逊S3，亚马逊请求ID: xxxxx，亚马逊服务错误代码:空

、、、

我正在尝试读取AWS S3中存在的拼图文件，并收到以下错误。 17/12/19 11:27:40 DEBUG DAGScheduler: ShuffleMapTask finished on 0 17/12/19 11:27:40 DEBUG DAGScheduler: submitStage(ResultStage 2) 17/12/19 11:27:40 DEBUG DAGScheduler: missing: List(ShuffleMapStage 1) 17/12/19 11:27:40 DEBUG DAGScheduler: submitStage(ShuffleMapStage

浏览 0提问于2017-12-19得票数 4

1回答

AWS Glue无法读取JSON Snappy文件

、、、

我在PySpark中读取AWS Glue作业的数据时遇到问题：数据从AWS消防软管(示例数据)发送到s3桶，存储为JSON，并使用snappy进行压缩。我能够用spark.read.json()从遗留的spark.read.json读取数据，但是使用from_catalog或from_options方法无法使用Glue动态框架(模式根本没有解析)：火花遗物DataFrame # import from legacy spark read spark_df = spark.read.json("s3://my-bucket/sample-json-hadoop-snappy/

浏览 1提问于2020-06-11得票数 4

回答已采纳

2回答

Spark/EMR能否从s3多线程读取数据

、、、

由于一些不幸的事件序列，我们最终得到了一个存储在s3上的非常零散的数据集。表元数据存储在Glue上，数据写入bucketBy，并以拼图格式存储。因此，文件的发现不是问题，spark分区的数量等于存储桶的数量，这提供了很好的并行性。当我们在Spark/EMR上加载这个数据集时，我们最终让每个spark分区从s3加载了大约8k个文件。因为我们以列的格式存储数据；根据我们需要几个字段的用例，我们并不真正读取所有数据，而是读取存储的一小部分数据。根据工作节点上的CPU利用率，我可以看到每个任务(在每个分区上运行)使用了大约20%的CPU，我怀疑这是因为每个任务都有一个线程顺序地从s3读取文件，所

浏览 2提问于2020-01-20得票数 2

1回答

无法从运行pyspark内核的emr笔记本中的s3存储桶下载文件

、、、

我已经做了一个电子病历集群，有spark和其他一些工具，但当启动电子病历笔记本并尝试访问s3存储桶文件时，我无法从s3下载该文件获得许可被拒绝错误。所有默认角色都具有s3的访问权限。 ?

浏览 22提问于2020-06-27得票数 2

回答已采纳

2回答

火花org.apache.hadoop.mapred.InvalidInputException S3 CSV读取返回

、、

我在这里看到了几个帖子和谷歌搜索的org.apache.hadoop.mapred.InvalidInputException，但大多数涉及HDFS文件或陷阱错误。我的问题是，虽然我可以从spark读取CSV文件，但是从编译的JAR中运行它会不断地返回一个org.apache.hadoop.mapred.InvalidInputException错误。罐子的粗糙过程：阅读S3中的JSON文档(此工作) 从S3中的拼花文件中读取(这也成功) 将对#1和#2的查询的结果写入S3中的拼花文件(也成功) 从相同的存储桶#3中读取配置csv文件。(这失败了) 下面是我在代码中

浏览 4提问于2017-02-03得票数 0

1回答

分区或位置更改时，AWS EMR Spark作业正在读取Glue Athena表

、、、、

我创建了一个AWS EMR Hadoop集群，其中“AWS Glue Data Catalog”用于“for Spark table metadata”。因此，在Spark作业或spark-shell中，我可以编写使用Glue/Athena数据库和表的Spark SQL。如果在EMR中运行的Spark作业正在读取该表的内容时更改了Athena表的位置，会发生什么情况？假设我在Glue数据库中有一个名为"item“的雅典娜表，名为"my_db”。雅典娜表格位置指向存储包含数据的地块文件的S3文件夹。此文件夹为s3://my_bucket/item_2020_03_02。在E

浏览 26提问于2020-03-03得票数 0

回答已采纳

1回答

在S3上使用EMR/Spark是否节省了使用列子集的带宽？

、、

我有一个EMR集群运行星火。在第一步中，CSV文件被转换为由paruqet.snappy列划分的date格式，因此我将使用 s3://my-bucket/dataset/date=2020-12-20/part-0001.parquet.snappy s3://my-bucket/dataset/date=2020-12-20/part-0002.parquet.snappy s3://my-bucket/dataset/date=2020-12-20/part-0003.parquet.snappy s3://my-bucket/dataset/date=2020-12-20/part-00

浏览 6提问于2020-12-21得票数 1

回答已采纳

1回答

是否有一种不使用Hadoop来读取AWS S3文件的方法？

、、

独立程序可以通过使用AWS客户端jar文件来读写AWS S3文件而不需要Hadoop。火花程序可以在没有Hadoop的情况下读写文件。然而，Spark需要读写AWS S3文件的程序才能使用Hadoop。即使如此，Spark1.4和Hadoop2.6& 2.7中仍然存在关于S3缺少Hadoop类的运行时错误，即使设置了Hadoop目录。是否有一种方法可以让星火程序通过使用AWS客户端jar文件来读取/写入S3文件而不使用Hadoop？如果不是，我如何在运行时解决S3中缺少Hadoop类的Spark问题？

浏览 2提问于2015-07-26得票数 4

1回答

Spark如何创建从S3读取的对象的分区？

、、、、

Spark如何创建从S3读取的对象的分区？我在S3中有一个118MB大小的对象。我将对象读入胶水动态框架。转换为spark数据帧并应用了一些转换。然后将数据写回S3。输出文件夹由大小为51MB和39MB的两个对象组成。Spark如何决定从S3读取的数据的分区方案？代码如下： df = glueContext.create_dynamic_frame.from_catalog(database = glueDatabase, table_name = glueTable).toDF() df = df.filter('student.year != "2005"&#

浏览 1提问于2020-06-26得票数 1

1回答

如何使用Glue读取多个S3存储桶？

、、、、

使用Spark时，我可以在前缀中使用*从多个存储桶中读取数据。例如，我的文件夹结构如下： s3://bucket/folder/computation_date=2020-11-01/ s3://bucket/folder/computation_date=2020-11-02/ s3://bucket/folder/computation_date=2020-11-03/ etc. 使用PySpark，如果我想读取11个月的所有数据，我可以这样做： input_bucket = [MY-BUCKET] input_prefix = [MY-FOLDER/computation_date=2

浏览 20提问于2020-12-01得票数 0

回答已采纳

2回答

如何使用pyspark读取Excel文件？

、、、、

我正在尝试使用AWS EMR的Pyspark来读取它驻留在s3中的Excel文件，为此，我下载了spark-excel jars spark-excel_2.11-0.12.4.jar和spark-excel_2.12-0.13.5.jar，并将其放入s3存储桶中 scenario 1: =========== df = spark.read.format("com.crealytics.spark.excel").option("useHeader", "true").option("inferschema", "tru

浏览 109提问于2021-02-13得票数 0

1回答

在s3上覆盖csv文件失败

、、、

当我从s3桶将数据加载到pyspark中时，进行一些操作(连接、联合)，然后尝试覆盖前面读取的相同路径(' data /csv/')。我得到了一个错误： py4j.protocol.Py4JJavaError: An error occurred while calling o4635.save. : org.apache.spark.SparkException: Job aborted. at org.apache.spark.sql.execution.datasources.FileFormatWriter$.write(FileFormatWriter.sca

浏览 0提问于2019-06-12得票数 0

2回答

Pyspark无法从亚马逊网络服务S3检索数据

、、

我收到以下错误： Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe. : java.io.IOException: No FileSystem for scheme: s3n ... 当我尝试从S3检索数据时。我的spark-defaults.conf有下面这一行： spark.jars /Users/lrezende/Desktop/hadoop-aws-2.9.0.jar 这个文件在我的桌面上。我的代码是： from pys

浏览 19提问于2018-02-24得票数 1

3回答

如何自动读取火花？

、

我需要从我的S3桶里读150遍 df1 = spark.read.json('s3://mybucket/f1') df2 = spark.read.json('s3://mybucket/f2') ... df150 = spark.read.json('s3://mybucket/f150') 如何使这一过程自动化？ spark.read.json produces Spark Dataframe. 如果我试试奥斯卡的建议 import spark your_dfs_list = [spark.read.json("s3://cw-m

浏览 13提问于2020-07-14得票数 1

回答已采纳

3回答

星星之火:在分区拼花数据中读取DateType列时出错

、、、、

我有S3中的拼图数据，由nyc_date以s3://mybucket/mykey/nyc_date=Y-m-d/*.gz.parquet格式分区。我有一个DateType列event_date，由于某种原因，当我尝试使用EMR从S3读取并写入hdfs时，会抛出这个错误。 from pyspark.sql import SparkSession spark = SparkSession.builder.enableHiveSupport().getOrCreate() df = spark.read.parquet('s3a://mybucket/mykey/') df.

浏览 6提问于2016-12-14得票数 14

回答已采纳

1回答

如何为GlueContext正确传递我的访问权限和密匙？

、、、

我有一个胶水笔记本，我试图从一个不同的AWS帐户读取一个特定的文件。当我试着运行一个火花会话并阅读它。代码工作得很好，我得到了火花df，但是当我尝试使用glueContext.create_dynamic_frame()时，我会得到一个Access Denied错误。到目前为止，我的代码就是这样的。是因为我没有正确传递AWS会话凭据吗？ import sys from awsglue.transforms import * from awsglue.utils import getResolvedOptions from pyspark.context import SparkContext

浏览 3提问于2022-11-18得票数 0

1回答

如何读取从S3到Spark的Avro的不同分区格式？

、、、

我有一个带有两种分区格式的S3桶： S3://桶名/tablename/年份/月/日 S3://bucketname/tablename/device/year/month/day 文件格式是Avro。我试着用val df = spark.read.format("com.databricks.spark.avro").load("s3://S3://bucketname/tablename")阅读。错误信息是 java.lang.AssertionError: assertion failed: Conflicting partition

浏览 1提问于2018-11-12得票数 0

1回答

火花缓存文件，以防止文件在处理时被删除。

我有一个火花应用程序试图读取一个文件。由于Spark的延迟加载，文件可能在spark.read时存在，但当我实际加载文件(如count操作)时，文件就会被删除。 // t0: file exists when initially trying to load the file val ds = spark.read.json("s3://some-location/some-file") // some operations on ds // t1: the file s3://some-location/some-file is deleted from S3 by so

浏览 6提问于2022-03-02得票数 -2

1回答

使用Spark从S3读取csv时出现Py4JJavaError错误

、、、

我正在尝试用Spark从亚马逊网络服务的S3存储桶中读取CSV文件，目前正在通过Jupyter笔记本进行读取。在为spark设置亚马逊网络服务S3配置后，我在尝试读取CSV时遇到以下错误： Py4JJavaError: An error occurred while calling SOMERANDOMNAME.csv. : com.amazonaws.services.s3.model.AmazonS3Exception: Status Code: 400, AWS Service: Amazon S3, AWS Request ID: XXXXXXXXXX, AWS Error Cod

浏览 45提问于2021-02-10得票数 0

回答已采纳

1回答

Databricks增量文件添加新分区导致旧分区不可读

、、、

我有一个笔记本，我正在用它加载历史记录。每次加载6个月的数据，从2018-10-01开始。我的增量文件被calendar_date分区在初始加载之后，我能够读取增量文件并查看数据。但是在第二次加载date 2019-01-01 to 2019-06-30之后，以前的分区不能使用增量格式正常加载。像这样读取我的源增量文件会抛出错误 file dosen't exist game_refined_start = ( spark.read.format("delta").load("s3://game_events/refined/game_sessio

浏览 32提问于2021-03-06得票数 1

回答已采纳

1回答

IllegalArgumentException :创建火花会话

、、、

我正在创建火花会话使用下面的代码片段在python笔记本上的AWS EMR集群。 spark = SparkSession.builder \ .config("spark.jars.packages","org.apache.hadoop:hadoop-aws:2.7.0") \ .getOrCreate() 然后从S3桶中读取数据，如下所示 df_songs = spark.read.option("recursiveFileLookup","true

浏览 10提问于2022-10-10得票数 0

回答已采纳

1回答

spark如何在幕后读取数据？

、、

例如，我有点困惑于spark是如何从s3读取数据的。假设要从s3读取100 GB的数据，而spark集群的总内存为30 GB。spark是否会在触发操作后读取所有100 GB的数据，并将最大数量的分区存储在内存中，并将剩余的分区溢出到磁盘?还是只读取可以存储在内存中的分区，对其进行处理，然后读取其余数据？任何到一些文档的链接都将受到高度赞赏。

浏览 2提问于2021-09-19得票数 2

2回答

Amazon EMR集群上的spark错误

、、

我试图运行一个EMR集群与一个简单的火花步骤执行，我遇到了一个错误，我无法解决。当我在Eclipse中本地运行它时，这个程序会工作，但是当我在EMR集群上运行它时，这个程序就不能工作了。该程序只是试图将S3上的CSV文件转换为Parquet格式。当我在EMR中运行时，我会得到以下错误：原因是:解析输入的com.univocity.parsers.common.TextParsingException:长度(1000001)超过解析器设置中定义的最大字符数(1000000)。已识别的已解析内容中的行分隔符。这可能是错误的原因。解析器设置中的行分隔符设置为“\n”。分析内容：我没有超

浏览 6提问于2017-01-24得票数 0

1回答

无法使用火花从s3桶读取

、、、、

val spark = SparkSession .builder() .appName("try1") .master("local") .getOrCreate() val df = spark.read .json("s3n://BUCKET-NAME/FOLDER/FILE.json") .select($"uid").show(5) 我给出了AWS_ACCESS_KEY_ID，AWS_SECRET_ACCESS_KEY作为环

浏览 0提问于2017-06-16得票数 3

2回答

从拼花文件中创建pyspark数据格式

、

我在火星雨方面还很新，我还在努力弄清楚到底是谁干的。我想要做的是在内存中加载一个拼花文件之后，使用pyarrow，我试着使它成为。但我搞错了。 --我要提到的是，我并不是直接阅读pyspark，因为s3中的文件给了我另一个关于“s3"的错误，所以我试图解决这个问题。下面我有一个可重复的例子。 import pyarrow.parquet as pq import s3fs s3 = s3fs.S3FileSystem() parquet_file=pq.ParquetDataset('s3filepath.parquet',filesystem=s3) sc = S

浏览 1提问于2019-07-29得票数 0

2回答

使用Kafka将拼花文件写入S3 Sink

、、、

条件：代码应该读取卡夫卡主题中的消息，并将其写成S3中的拼花文件。在这里，我使用Pyspark编写了Kafka，并且我能够成功地将JSON文件写入s3接收器。 *工作守则：* 火花-2.4.4封装- org.apache.spark:spark-sql-kafka-0-10_2.11:2.4.4 spark = SparkSession\ .builder \ .appName("Python-EMR-KAFKA") \ .config("spark.serializer", "org.apac

浏览 21提问于2022-04-22得票数 0

1回答

您能使用Spark /Hive/Presto直接从Parquet/S3复制到Redshift吗？

、、、

我们有大量的服务器数据存储在S3中(很快将以Parquet格式存储)。数据需要一些转换，因此不能直接从S3复制。我将使用Spark来访问数据，但我想知道的是，如果我可以跳过一个步骤，运行一个查询来提取/转换数据，然后直接将其复制到Redshift，那么是否可以代替用Spark操作它，将其写回S3，然后复制到Redshift？

浏览 1提问于2016-04-14得票数 6

回答已采纳

1回答

加载文件时无法推断架构

、、

下面的代码是在pyspark shell中运行时的工作文件，但在spark-submit master-yarn中执行时失败。我到底做错了什么？ from datetime import date, timedelta import pandas as pd import os, sys startd = '20140101' endd=str(sys.argv[1]) currd=str(sys.argv[2]) spark = SparkSession.builder.getOrCreate() base = &

浏览 14提问于2020-07-28得票数 1

1回答

使用spark从S3读取禁止的错误

、

我已经设置了spark配置，其中包括S3访问密钥和密钥以及设置impl。当我执行sqlContext.getAllConfs时，我可以看到值但是在将文本文件读入df时，我得到了一个禁止的错误 val df = sqlContext.read .format("com.databricks.spark.csv") .option("header", "true") // Use first line of all files as header .option("delimiter", de

浏览 10提问于2019-10-17得票数 0

3回答

当一个文件从S3桶加载时，Spark创建了多少个分区？

、、、

如果文件是从HDFS加载的，默认情况下，spark会为每个块创建一个分区。但是，在从S3桶加载文件时，S3如何决定分区呢？

浏览 7提问于2016-05-11得票数 13

回答已采纳

1回答

并行地将数据写入拼板格式

、、

我有一个相对庞大的前提表(约15亿行)，我正试图使用AWS以拼花格式将它拉到AWS S3中。我使用spark读取表并将其写入S3。问题是，我不能一次从源表中提取所有数据，因为源DB将耗尽内存并发出抱怨。为了解决这个问题，我使用谓词选项并行地按下过滤器，这可以很好地提取2亿左右的数据块。但是，当我试图将这个数据写入S3时，需要将近半个小时才能完成： df = spark.read.jdbc(url=host_url, table="TABLENAME", predicates=pre

浏览 0提问于2020-06-05得票数 2

回答已采纳

1回答

Apache Spark CSV到拼图，4,000列，20000个小文件

我有大量的csv文件(大约20000个)，这些文件中的大多数大约有4,000列，10%的文件可以稍微少一些或多一些列。我想将这些文件从S3加载到spark中，从CSV文件中推断出模式，然后合并模式以处理混合模式文件。然后，在减少分区数量后，将其写回S3作为拼图。 val df = spark.read.format("csv").option("header", "true").option("mergeSchema", "true").option("inferSchema", "

浏览 1提问于2018-07-05得票数 1

1回答

使用星星之火从胶目录中读取，而不使用动态框架(胶水上下文)

、、、、

由于我们的方案是常量的，所以我们使用的是spark.read()，这比在s3中存储数据时从选项创建动态框架要快得多所以现在想要使用动态框架从胶水目录中读取数据需要很多时间，所以想要使用spark Dataframe.read.format(“).option(”url“，"").option("dtable"，schema.table名称).load() 需要输入什么格式和url选项以及任何其他内容？？

浏览 1提问于2021-04-12得票数 3

1回答

达美桌/雅典娜和星火

、、、、

我有我的三角桌，可以从雅典娜那里读出来。当我试图通过spark查询获取数据时，我会得到以下错误： Caused by: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 80.0 failed 4 times, most recent failure: Lost task 0.3 in stage 80.0 (TID 449, ip-172-31-22-178.ec2.internal, executor 2): java.lang.RuntimeException:

浏览 7提问于2022-01-19得票数 0

1回答

无法使用S3协议从s3桶中读取，只能使用s3a

、、、

我已经完成了所有依赖项的线程，以便将运行在aws上的火花连接到s3桶上，但是我的问题似乎略有不同。在我看到的所有其他讨论中，s3和s3a协议具有相同的依赖关系。不知道为什么其中一个在为我工作而另一个却不在。目前，在本地模式下运行spark，s3a做得很好，但我的理解是，在EMR上运行s3是支持的(因为它依赖HDFS块存储)。要让s3协议发挥作用，我缺少什么？ spark.read.format("csv").load("s3a://mybucket/testfile.csv").show() //this works, displays the df 对比 sp

浏览 5提问于2019-10-14得票数 2

回答已采纳

2回答

spark.sql.files.maxPartitionBytes不限制写入分区的最大大小

、、

我正在尝试将拼板数据从另一个s3桶复制到我的s3桶中。我希望将每个分区的大小限制为128 MB。我认为默认情况下，spark.sql.files.maxPartitionBytes应该设置为128 MB，但是当我在复制后查看s3中的分区文件时，我会看到大约226 MB的单个分区文件。我看了这篇文章，它建议我设置这个星火配置键，以限制分区的最大大小：，但它似乎不起作用吗？这是配置键的定义：读取文件时要打包到单个分区的最大字节数。此配置仅在使用Parquet、JSON和ORC等基于文件的源时才有效。我也有点困惑，这是如何与大小的书面拼花文件。作为参考，我正在胶水1.0版spark 2.4

浏览 54提问于2020-06-30得票数 1

2回答

将KMS加密的火花数据帧读写到S3桶中时遇到的问题

我正在尝试使用S3编写一个Spark到AWS的S3桶，并获得一个不支持指定加密方法的异常。存储桶具有服务器端加密设置。下面的包运行于spark.jars.packages com.amazonaws:aws:1.9.5，org.apache.hadoop:hadoop:3.2.0 回顾了现有的线程：，并提到上面的版本应该支持SSE加密。我还包括了core-site.xml，将属性fs.s3a.server端加密算法设置为‘SSE’。但是，我还是明白这个错误。请注意，对于没有SSE的桶，这很好。错误消息: AmazonS3Exception:状态代码: 400，AWS服务: Amazon

浏览 2提问于2019-06-27得票数 1

2回答

在火花中重复使用s3桶之前，如何正确地移除/清除它？

、

我正在一个jupyter笔记本中工作，创建一个并将其保存到python中的s3中，使用Spark2.0.1。代码看起来有点像 action = 'CREATE' if action == 'CREATE': df = dfA.filter(...) df = df.join(...) df.coalesce(4).write.format('parquet').save('s3://my/path') elif action == 'LOAD': df = spark.read.pa

浏览 1提问于2017-06-29得票数 2

回答已采纳

3回答

加载本地文件(而不是HDFS)在Spark失败

、

我有一个问题--如何用sc.textFile在PySpark上加载本地文件(不是在HDFS上，也不是在PySpark上)。我读取，然后将sales.csv复制到主节点的本地(而不是HDFS)，最后执行以下操作 sc.textFile("file:///sales.csv").count() 但是它返回以下错误，即file:/click_data_sample.csv does not exist z:org.apache.spark.api.python.PythonRDD.collectAndServe.：调用Py4JJavaError时出错：ip-17x-xx-xx-xx

浏览 7提问于2016-02-01得票数 20

2回答

从s3子目录读取PySpark中的数据

、、、、

我想从一个S3桶中读取所有的拼板文件，包括子目录中的所有文件(这些实际上是前缀)。在S3 url中使用通配符(*)只适用于指定文件夹中的文件。例如，使用此代码将只读取target/文件夹下的拼花文件。 df = spark.read.parquet("s3://bucket/target/*.parquet") df.show() 假设我在我的s3桶中有这样一个结构： "s3://bucket/target/2020/01/01/some-file.parquet" "s3://bucket/target/2020/01/02/some-file.pa

浏览 1提问于2020-10-08得票数 2

回答已采纳

1回答

Spark/Hadoop -无法使用服务器端加密保存到s3

、、、、

我正在运行AWS EMR集群来运行spark作业。为了使用hadoop存储桶，使用访问密钥、密钥、enableServerSideEncryption和用于加密的算法来设置s3配置。请看下面的代码 val hadoopConf = sc.hadoopConfiguration; hadoopConf.set("fs.s3.impl", "org.apache.hadoop.fs.s3native.NativeS3FileSystem") hadoopConf.set("fs.s3.awsAccessKeyId", "xxx

浏览 0提问于2016-02-22得票数 6

1回答

Spark SQL: null值被转换为结果文件中的空字符串

、、、

我用AWS编写了一个脚本，用于从AWS S3读取CSV文件，对少数字段进行空检查，并将结果作为新文件存储回S3。问题是，当遇到字符串类型的字段时，如果值为null，则转换为空字符串。但我不希望这种转变发生。对于所有其他数据类型，它运行良好。以下是到目前为止编写的脚本： glueContext = GlueContext(SparkContext.getOrCreate()) spark = glueContext.spark_session # s3 output directory output_dir = "s3://aws-glue-scripts/..." # D

浏览 1提问于2017-10-03得票数 0

回答已采纳

1回答

S3环境下电子病历集群中的问题解读

、、、、

我正在开发一个关于Java的应用程序。生成并成功地将.jar加载到EMR集群。代码中有一行内容如下： JsonReader jsonReader = new JsonReader(new FileReader("s3://naturgy-sabt-dev/QUERY/input.json")); 我百分之百肯定：这样的档案确实存在。在执行aws s3 cp s3://naturgy-sabt-dev/QUERY/input.json .时，我正在正确地接收.json文件。设置IAM策略，以便绑定的EMR角色具有读取、写入和列表的权限。不起作用。

浏览 0提问于2019-12-11得票数 0

回答已采纳

2回答

在星火中映射s3键到值的正确方法

、

我在一个文件中有一个s3键列表，我希望将它们的值输入到一个RDD中。正确的方法是什么？下面的代码是我当前的尝试。从s3中提取文件的调用在map函数之外工作，但会在其内部导致空指针异常。我相信这是因为您不能在地图调用中创建或操作RDDs，但是我不知道如何解决这个问题。是否有方法可以在不将文件放入RDD的情况下从S3读取文件？如果我可以将它们直接读入字符串或inputStream中，这将是理想的，但我不相信Source支持s3a格式，它必须是从hadoop文件系统读取的东西。 JavaRDD<String> keys = spark.sparkContext().textFile(&

浏览 4提问于2017-11-02得票数 1

回答已采纳

4回答

如何读取一次流数据集并输出到多个接收器？

、

我有一个Spark Structured Streaming Job，它从S3读取数据，转换数据，然后将其存储到一个S3接收器和一个Elasticsearch接收器。目前，我先执行readStream一次，然后执行writeStream.format("").start()两次。当这样做时，似乎Spark从S3源读取数据两次，每个接收器一次。有没有一种更有效的方法来写入同一管道中的多个接收器？

浏览 1提问于2017-09-19得票数 14

1回答

在emr-6.7.0火花中添加jar驱动器

、、、、

我试图从emr集群连接到aws集群，我将jar驱动程序上传到s3，并使用这个引导操作将jar文件复制到集群节点： aws s3 cp s3://sparkbcuket/spark-redis-2.3.0.jar /home/hadoop/spark-redis-2.3.0.jar 这是我的连接测试火花应用程序： import sys from pyspark.sql import SparkSession if __name__ == "__main__": spark = SparkSession.builder\ .config("spar

浏览 12提问于2022-07-18得票数 1

回答已采纳

1回答

星星之火:在S3中刷新Delta表

、、、

如何在中的Delta上运行S3命令？当我这么做 deltatable = DeltaTable.forPath(spark, "s3a://test-bucket/delta_table/") spark.catalog.refreshTable(deltatable) 我发现了一个错误： AttributeError: 'DeltaTable' object has no attribute '_get_object_id' refresh命令只适用于Hive表吗？谢谢!

浏览 3提问于2022-08-09得票数 1

回答已采纳