问从S3加载数据集需要哪些jars？
EN

Stack Overflow用户

提问于 2018-06-07 22:11:46

回答 1查看 112关注 0票数 0

我们正在试验将数据从亚马逊S3加载到Spark2.3集群中，该集群是在Mesosphere DC/OS下配置的。当我们在spark shell上运行代码时，spark无法识别S3文件系统：

File "/root/spark/spark-2.3.0-bin-hadoop2.7/python/lib/py4j-0.10.6-src.zip/py4j/protocol.py", line 320, in get_return_value
py4j.protocol.Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe.
: java.io.IOException: No FileSystem for scheme: s3

为了让Spark识别S3，我们需要手动添加哪些库/ jars？

apache-spark

amazon-s3

pyspark

mesosphere

dcos

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-06-09 04:17:36

你可以使用“S3A://”而不是s3来阅读它。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/50743444

复制

相似问题

问从S3加载数据集需要哪些jars？
EN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从S3加载数据集需要哪些jars？EN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从S3加载数据集需要哪些jars？
EN