首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >尝试使用本地spark从s3读取和写入拼图文件

尝试使用本地spark从s3读取和写入拼图文件
EN

Stack Overflow用户
提问于 2017-12-05 19:16:06
回答 2查看 11.7K关注 0票数 4

我正在尝试使用spark将拼图文件从我的本地机器读写到S3。但是我似乎无法正确地配置我的spark会话来做到这一点。显然,需要进行一些配置,但我找不到关于如何进行配置的明确参考。

目前,我的spark会话读取本地拼图模拟,定义如下:

代码语言:javascript
运行
复制
val sparkSession = SparkSession.builder.master("local").appName("spark session example").getOrCreate()
EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2017-12-06 18:02:17

我将不得不稍微修改一下himanshuIIITian的帖子,(对不起)。

  1. 使用s3a连接器,而不是旧的、过时的、未维护的s3n。S3A是:更快,可与较新的S3集群(首尔、法兰克福、伦敦等)配合使用,可伸缩性更好。S3N有基本的性能问题,只有在最新版本的Hadoop中,通过完全删除该连接器才能修复这些问题。继续前进。
  2. 你不能安全地使用s3作为Spark query.的直接目的地,现在经典的"FileSystem“提交者是不行的。写入您的本地文件://,然后使用AWS CLI界面复制数据。您将获得更好的性能以及IO

通常期望的可靠写入保证

票数 4
EN

Stack Overflow用户

发布于 2017-12-06 01:08:44

要使用本地Spark从S3读取和写入拼图文件,您需要在sbt项目中添加以下2个依赖项-

代码语言:javascript
运行
复制
"com.amazonaws" % "aws-java-sdk" % "1.7.4"
"org.apache.hadoop" % "hadoop-aws" % "2.7.3"

我假设这是一个sbt项目。如果它的mvn,则添加以下依赖项-

代码语言:javascript
运行
复制
<dependency>
    <groupId>com.amazonaws</groupId>
    <artifactId>aws-java-sdk</artifactId>
    <version>1.7.4</version>
</dependency>

<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoop-aws</artifactId>
    <version>2.7.3</version>
</dependency>

然后您需要在sparkSession中设置S3凭据,如下所示-

代码语言:javascript
运行
复制
val sparkSession = SparkSession.builder.master("local").appName("spark session example").getOrCreate()
sparkSession.sparkContext.hadoopConfiguration.set("fs.s3n.impl", "org.apache.hadoop.fs.s3native.NativeS3FileSystem")
sparkSession.sparkContext.hadoopConfiguration.set("fs.s3n.awsAccessKeyId", "s3AccessKey")
sparkSession.sparkContext.hadoopConfiguration.set("fs.s3n.awsSecretAccessKey", "s3SecretKey")

一切都结束了。现在,您可以将拼图文件读/写到S3。例如:

代码语言:javascript
运行
复制
sparkSession.read.parquet("s3n://bucket/abc.parquet")    //Read
df.write.parquet("s3n://bucket/xyz.parquet")    //Write

我希望它能有所帮助!

票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/47652281

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档