文章/答案/技术大牛

发布

社区首页 >问答首页 >在本地运行Pyspark以访问S3错误中的拼花文件：“无法从链中的任何提供者加载AWS凭据”

问在本地运行Pyspark以访问S3错误中的拼花文件：“无法从链中的任何提供者加载AWS凭据”
EN

Stack Overflow用户

提问于 2020-09-04 14:13:32

回答 1查看 609关注 0票数 0

我正在尝试通过Pycharm访问在S3桶中可用的parquet文件，使用Pyspark。我在Pycharm中配置了AWS工具包，并且在我的~/.aws/credentials中添加了访问密钥和安全密钥，但是我看到凭据没有被访问。这会引发错误“无法从链中的任何提供程序加载AWS凭据”。

import os
import pyspark
from pyspark.sql import SparkSession


os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages com.amazonaws:aws-java-sdk-pom:1.10.34,org.apache.hadoop:hadoop-aws:2.7.3 pyspark-shell'

spark = SparkSession.builder\
            .appName('Pyspark').getOrCreate()

my_df = spark.read.\
    parquet("s3a://<parquet_file_location>") --Using s3 gives me no file system error

my_df.printSchema()

是否有其他方法在本地试用Pyspark并访问AWS资源。

此外，我应该能够在拼花路径中使用s3，但这似乎会引发文件系统未找到的错误。是否需要添加任何依赖项或jar文件才能在本地运行

python

amazon-web-services

apache-spark

pyspark

aws-toolkit

回答 1

Stack Overflow用户

发布于 2020-09-09 10:47:36

如果您在AWS_ env中设置了秘密，它们将被捕获，然后与作业一起传播。否则，您可以使用适当的spark.hadoop.fs.s3a.access.key和spark.hadoop.fs.s3a.secret.key将它们设置为spark-defaults.conf。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/63742860

复制

相似问题

问在本地运行Pyspark以访问S3错误中的拼花文件：“无法从链中的任何提供者加载AWS凭据”
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在本地运行Pyspark以访问S3错误中的拼花文件：“无法从链中的任何提供者加载AWS凭据”EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在本地运行Pyspark以访问S3错误中的拼花文件：“无法从链中的任何提供者加载AWS凭据”
EN