文章/答案/技术大牛

发布

社区首页 >问答首页 >尝试使用本地spark从s3读取和写入拼图文件

问尝试使用本地spark从s3读取和写入拼图文件
EN

Stack Overflow用户

提问于 2017-12-05 19:16:06

回答 2查看 11.7K关注 0票数 4

我正在尝试使用spark将拼图文件从我的本地机器读写到S3。但是我似乎无法正确地配置我的spark会话来做到这一点。显然，需要进行一些配置，但我找不到关于如何进行配置的明确参考。

目前，我的spark会话读取本地拼图模拟，定义如下：

val sparkSession = SparkSession.builder.master("local").appName("spark session example").getOrCreate()

amazon-s3

spark-dataframe

scala

apache-spark

回答 2

Stack Overflow用户

回答已采纳

发布于 2017-12-06 18:02:17

我将不得不稍微修改一下himanshuIIITian的帖子，(对不起)。

使用s3a连接器，而不是旧的、过时的、未维护的s3n。S3A是:更快，可与较新的S3集群(首尔、法兰克福、伦敦等)配合使用，可伸缩性更好。S3N有基本的性能问题，只有在最新版本的Hadoop中，通过完全删除该连接器才能修复这些问题。继续前进。
你不能安全地使用s3作为Spark query.的直接目的地，现在经典的"FileSystem“提交者是不行的。写入您的本地文件://，然后使用AWS CLI界面复制数据。您将获得更好的性能以及IO

通常期望的可靠写入保证

票数 4

Stack Overflow用户

发布于 2017-12-06 01:08:44

要使用本地Spark从S3读取和写入拼图文件，您需要在sbt项目中添加以下2个依赖项-

"com.amazonaws" % "aws-java-sdk" % "1.7.4"
"org.apache.hadoop" % "hadoop-aws" % "2.7.3"

我假设这是一个sbt项目。如果它的mvn，则添加以下依赖项-

<dependency>
    <groupId>com.amazonaws</groupId>
    <artifactId>aws-java-sdk</artifactId>
    <version>1.7.4</version>
</dependency>

<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoop-aws</artifactId>
    <version>2.7.3</version>
</dependency>

然后您需要在sparkSession中设置S3凭据，如下所示-

val sparkSession = SparkSession.builder.master("local").appName("spark session example").getOrCreate()
sparkSession.sparkContext.hadoopConfiguration.set("fs.s3n.impl", "org.apache.hadoop.fs.s3native.NativeS3FileSystem")
sparkSession.sparkContext.hadoopConfiguration.set("fs.s3n.awsAccessKeyId", "s3AccessKey")
sparkSession.sparkContext.hadoopConfiguration.set("fs.s3n.awsSecretAccessKey", "s3SecretKey")

一切都结束了。现在，您可以将拼图文件读/写到S3。例如：

sparkSession.read.parquet("s3n://bucket/abc.parquet")    //Read
df.write.parquet("s3n://bucket/xyz.parquet")    //Write

我希望它能有所帮助！

票数 4

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/47652281

复制

相似问题

问尝试使用本地spark从s3读取和写入拼图文件
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问尝试使用本地spark从s3读取和写入拼图文件EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问尝试使用本地spark从s3读取和写入拼图文件
EN