首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >在本地运行Pyspark以访问S3错误中的拼花文件:“无法从链中的任何提供者加载AWS凭据”

在本地运行Pyspark以访问S3错误中的拼花文件:“无法从链中的任何提供者加载AWS凭据”
EN

Stack Overflow用户
提问于 2020-09-04 14:13:32
回答 1查看 609关注 0票数 0

我正在尝试通过Pycharm访问在S3桶中可用的parquet文件,使用Pyspark。我在Pycharm中配置了AWS工具包,并且在我的~/.aws/credentials中添加了访问密钥和安全密钥,但是我看到凭据没有被访问。这会引发错误“无法从链中的任何提供程序加载AWS凭据”。

代码语言:javascript
运行
复制
import os
import pyspark
from pyspark.sql import SparkSession


os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages com.amazonaws:aws-java-sdk-pom:1.10.34,org.apache.hadoop:hadoop-aws:2.7.3 pyspark-shell'

spark = SparkSession.builder\
            .appName('Pyspark').getOrCreate()

my_df = spark.read.\
    parquet("s3a://<parquet_file_location>") --Using s3 gives me no file system error

my_df.printSchema()

是否有其他方法在本地试用Pyspark并访问AWS资源。

此外,我应该能够在拼花路径中使用s3,但这似乎会引发文件系统未找到的错误。是否需要添加任何依赖项或jar文件才能在本地运行

EN

回答 1

Stack Overflow用户

发布于 2020-09-09 10:47:36

如果您在AWS_ env中设置了秘密,它们将被捕获,然后与作业一起传播。否则,您可以使用适当的spark.hadoop.fs.s3a.access.key和spark.hadoop.fs.s3a.secret.key将它们设置为spark-defaults.conf。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/63742860

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档