使用Spark从S3读取csv时出现Py4JJavaError错误_使用spark从S3读取禁止的错误_使用pyspark从S3读取csv作为spark数据帧(Spark2.4) - 腾讯云开发者社区

amazon-web-services、csv、apache-spark、amazon-s3

我正在尝试用Spark从亚马逊网络服务的S3存储桶中读取CSV文件，目前正在通过Jupyter笔记本进行读取。在为spark设置亚马逊网络服务S3配置后，我在尝试读取CSV时遇到以下错误： Py4JJavaError: An error occurred while calling SOMERANDOMNAME.csv. : com.amazon

浏览 45提问于2021-02-10得票数 0

回答已采纳

1回答

在木星笔记本中找不到org.apache.hadoop.fs.s3native.NativeS3FileSystem和PySpark

amazon-s3、pyspark、jupyter-notebook

我想在我的笔记本电脑里读取s3中的PySpark数据。但是我得到了下面的错误信息。spark._jsc.hadoopConfiguration().set("fs.s3n.awsSecretAccessKey", "...") my_df = spark.read.<em

浏览 0提问于2019-08-28得票数 1

2回答

从AWS S3读取CSV文件

apache-spark、pyspark

我有一个带有csv文件的S3桶，当我尝试用它读取它时，我想要读取它：df =spark.read.csv('https://s3.us-east-2.amazonaws.com/bucketname/filename.csv') 它抛

浏览 2提问于2019-03-17得票数 0

1回答

如何使用s3从boto3读取拼图文件

amazon-s3、pyspark、boto3

我在s3桶(s3://mybucket/my/path/)中没有几个拼板文件。我想要阅读它使用boto3的火花数据。由于现有的安全性，我不能将它直接读为spark.read.parquet('s3://mybucket/my/path/')。因此，需要使用boto3阅读它。当尝试使用下面的代码读取单个拼板文件(S3:

浏览 0提问于2021-11-17得票数 0

1回答

在使用pyspark读取csv时失败

pyspark、spark-dataframe、amazon-emr、apache-zeppelin、spark-csv

我正在使用Zeppelin-Sandbox 0.5.6和Spark 1.6.1在Amazon EMR上。我正在读取位于csv上的s3文件。问题是，有时我在读取文件时出错。/maven")使用spark-csvimport pysp

浏览 1提问于2016-06-21得票数 0

1回答

从本地计算机读取数据时出现(PySpark)问题

apache-spark、pyspark

当我使用pyspark从我的计算机读取数据(DAT文件-4 Gb)时，一切正常，但当我使用pyspark从本地计算机(我公司的其他计算机通过LAN连接)读取数据时，出现以下错误： '‘Py4JJavaError:调用o304.csv时出错。用法: java.io.IOException:方案没有FileSystem : null '‘ Erro

浏览 26提问于2020-10-28得票数 0

1回答

“火花提交”和“`sc._jsc.addJar(‘myjar.jar’)”在行为上有什么区别？

apache-spark、pyspark

因此，我有一个PySpark程序，它可以很好地运行以下命令：py4j.protocol.Py4JJavaError: An error occurred while callingo48.jdbc. : java.lang.ClassNotFoundException: com.terad

浏览 1提问于2018-02-01得票数 2

回答已采纳

1回答

在AWS EMR上使用spark；您提供的AWS访问密钥Id在我们的记录中不存在。但是boto3调用工作得很好

apache-spark、amazon-s3、amazon-emr

我正在尝试读取EMR上的SPARK中的文件，我在不同的系统(Illumina ICA)中为该文件提供了临时凭据。当尝试使用spark.read.csv和S3 URI读取文件时，它给出了错误： Py4JJavaError: An error occurred while calling o65.csv. : java.io.IOException(Service: Amazon S3

浏览 39提问于2021-04-07得票数 1

3回答

加载本地文件(而不是HDFS)在Spark失败

apache-spark、pyspark

我读取，然后将sales.csv复制到主节点的本地(而不是HDFS)，最后执行以下操作但是它返回以下错误，即file:：调用Py4JJavaError时出错：ip-17x-xx-xx-xxx.ap-northeast-1.compute.internal)：：由于阶段失败而中止作业:阶段3.0中的任务0失败4次，最近的失败所有的端口都打开了 No

浏览 7提问于2016-02-01得票数 20

3回答

PySpark3从https url读取文件

python、apache-spark、pyspark

PySpark中是否有从.tsv.gz中读取.tsv.gz的方法？/other/clickstream/2017-11/clickstream-jawiki-2017-11.tsv.gz"df = spark.read.option("sep", "\t").csv(

浏览 7提问于2021-09-25得票数 1

回答已采纳

1回答

如何为GlueContext正确传递我的访问权限和密匙？

python、amazon-web-services、amazon-s3、aws-glue

我有一个胶水笔记本，我试图从一个不同的AWS帐户读取一个特定的文件。当我试着运行一个火花会话并阅读它。代码工作得很好，我得到了火花df，但是当我尝试使用glueContext.create_dynamic_frame()时，我会得到一个Access Denied错误。 connection_type="s3", connection_options={"paths":

浏览 3提问于2022-11-18得票数 0

1回答

将csv文件从S3读取到R中的spark

r、amazon-s3、apache-spark-sql

我有下面的代码读取csv从s3到火花 test_data <- spark_read_csv( name = "Invites", path ="s3://xxxx/customer/Sample.csv") con <-

浏览 6提问于2020-04-22得票数 1

回答已采纳

1回答

尝试在Spark中读取拼花时出错

apache-spark、pyspark、parquet

我使用的是Python Spark 2.4.3df.write.parquet("result_parquet") parquetFile = spark.read.parquet("result_parquet&quo

浏览 10提问于2019-07-20得票数 1

1回答

从PySpark 3.1.2连接Oracle DB -由于Py4JJavaError而失败

oracle、jdbc、pyspark

它会失败，并显示以下错误： Py4JJavaError: An error occurred while calling o44.load. sparkurl = 'jdbc:oracle:thin:@hostname:port/dbTEST'

浏览 195提问于2021-08-19得票数 0

1回答

尝试从csv创建spark数据帧时出错

python、dataframe、apache-spark、pyspark、jupyter-notebook

我正在尝试从s3读取csv文件并创建spark数据帧。我收到了一些我不理解的错误。= SparkSession.builder.getOrCreate() df = spark.read.csv("https://s3.myaws.com/datastore/apprecords.csv") 当我在我的Jupyter笔记本上运行上面的命令时，我得到以下<em

浏览 15提问于2020-10-01得票数 0

1回答

PySpark:无法使用spark.sql读取hive表

python、pyspark、hive、apache-spark-sql、orc

使用spark将df写入hdfs：在此基础上创建了蜂巢外部表select * from default.table1; --> works fine 我可以使用spark读取这个文件夹。spark.read.orc("

浏览 26提问于2021-08-23得票数 0

1回答

从Synapse笔记本覆盖Azure datalake 2中的文件会引发异常

pyspark、azure-databricks、azure-synapse、azure-data-lake-gen2

作为从Azure数据库迁移到Azure Synapse分析笔记本的一部分，我面临下面解释的问题。在从Azure Datalake Storage 2读取CSV文件时，使用以下命令将其分配给。df = spark.read.format('csv').option("delimiter", ",").option("multiline", "true").option(&

浏览 4提问于2022-05-20得票数 0

1回答

用S3读取DataFrameReader文件

java、amazon-web-services、apache-spark、amazon-s3、databricks

嗨，我在用S3读取文件时遇到了问题--当文件是本地的时候，我能够读取完全相同的文件，但是当它存储在s3上时，我无法读取它，下面是我的代码片段

浏览 1提问于2017-02-09得票数 0

回答已采纳

1回答

在Google Colab环境中PySpark从Aws-S3读取时引发的ClassNotFoundException

amazon-s3、pyspark、google-colaboratory

Google Colab research是测试python、数据挖掘和深度学习的一个很好的工具，我想基于pyspark在它上面运行spark作业，当我在Google Colab Pyspark脚本中从S3读取时，我得到了错误： /usr/local/lib/python3.6/dist-packages/py4j/protocol.py in get_return_value(answer, gateway_clie

浏览 0提问于2020-11-02得票数 0

1回答

内容长度分隔的消息体SparkException的过早结束时，从S3中读取时使用Pyspark

apache-spark、amazon-s3、pyspark、apache-spark-sql、pyspark-dataframes

我正在使用下面的代码从我的本地机器读取S3 csv文件。df = spark_session.read.csv("s3a://pyspark-lijo-test/auction.csv", header=True,mode="DROPMALFORMED")''), ('spark.submit.deployMode', &#

浏览 2提问于2020-07-08得票数 2

点击加载更多