使用FileSystem将文件写入S3 (Scala)_使用scala将拼图数据写入S3上的文件_使用节点FileSystem fs.writeFileSync()将JSON数据写入文件 - 腾讯云开发者社区

scala、apache-spark、hdfs

我正在使用scala，并尝试将包含字符串内容的文件写入S3。我曾尝试用FileSystem这样做，但得到了一个错误：“错误的FS: s3a” val content = "blabla" val fs = FileSystem.get(spark.sparkContext.hadoopConfiguration

浏览 66提问于2019-06-27得票数 0

2回答

Spark Streaming textFileStream不支持通配符

apache-spark、hdfs、spark-streaming

我设置了一个简单的测试来流式传输来自S3的文本文件，并在尝试以下内容时使其正常工作 val input = ssc.textFileStream("s3n://mybucket/2015/04/03/"但是如果它们是一个子文件夹，它将找不到任何放入子文件夹的文件(是的，我知道hdfs实际上并不使用文件夹结构)。我知道在读取标准spark应用程序的fileInput时可以使用

浏览 3提问于2015-04-03得票数 11

2回答

IllegalArgumentException，将ML模型从Spark写入s3时出现错误FS (Scala)

scala、apache-spark、amazon-s3、ibm-cloud、apache-spark-ml

我已经创建了一个模型：我正在尝试将其写入s3：sc.hadoopConfiguration.set("fs.s3.awsAccessKeyId(FileSystem.java:645) org.apache.h

浏览 13提问于2016-09-16得票数 1

回答已采纳

1回答

无法使用S3协议从s3桶中读取，只能使用s3a

scala、apache-spark、amazon-s3、amazon-emr

我已经完成了所有依赖项的线程，以便将运行在aws上的火花连接到s3桶上，但是我的问题似乎略有不同。在我看到的所有其他讨论中，s3和s3a协议具有相同的依赖关系。目前，在本地模式下运行spark，s3a做得很好，但我的理解是，在EMR上运行s3是支持的(因为它依赖HDFS块存储)。要让s3协议发挥作用，我缺少什么？://mybucket/testfile.csv").show()java.io.IOException: No FileSyst

浏览 5提问于2019-10-14得票数 2

回答已采纳

2回答

Spark + S3 + IAM角色

amazon-web-services、apache-spark、amazon-s3、roles

我尝试使用IAM角色从spark读取s3存储桶中的csv文件，但在MultiObjectDeleteException上获取NoClassDefFoundError 我在没有hadoop的情况下安装了ListAllMyBuckets", "s3:CreateJob", "s3(FileSystem

浏览 56提问于2019-10-19得票数 2

2回答

无法启动--在s3桶上提交pyspark文件

amazon-web-services、apache-spark、amazon-s3、pyspark、amazon-emr

我有一个pyspark代码，它既存储在AWS集群的主节点上，也存储在一个s3桶中，该桶从MySQL数据库中获取超过1.4亿行，并将列的总和存储在s3上的日志文件中。当我在主节点上提交电火花代码时，作业成功完成，输出存储在S3桶上的日志文件中。但是，当我使用这些-(在SSH-ing之后在终端上使用下面的命令向主节点提交S3存储桶上的pyspark代码)时， spark-submit --master yarn --deploy-mode我需要创建一个

浏览 15提问于2020-07-02得票数 0

1回答

当使用spark和mlflow时，方案"s3“异常没有s3

apache-spark、amazon-s3、pyspark、mlflow

我们正在针对我们的Kubernetes集群运行一个Spark作业，并尝试将模型记录到MLflow。我们运行的是Spark3.2.1和MLflow 1.26.1，我们使用以下jars与s3、hadoop-aws-3.2.2.jar和aws-java-sdk-bundle-1.11.375.jar进行通信，并使用以下参数配置火花提交作业： --conf spark.hadoop.fs.s3a.aws.credentials.provider=org.apache.hadoop.fs.s3a.SimpleAWSCredent

浏览 6提问于2022-06-24得票数 1

回答已采纳

1回答

没有使用Hadoop FileSystem和BouncyCastle将数据写入FileSystem

hadoop、amazon-web-services、amazon-s3、bouncycastle

我使用以下代码将加密数据写入Amazon：cOut.close();final OutputStream fsO

浏览 0提问于2015-04-07得票数 0

回答已采纳

1回答

使用时态路径的火花写入操作HDFS

scala、apache-spark、hdfs

我试图从这个Scala代码中写入csv文件。我使用HDFS作为临时目录，然后只使用writer.write在现有的子文件夹中创建一个新文件。= getFileSystem(inputFile) val inputData = readCSVFile(fileSystem, inputFile, skipHeader = true).toSeq问题是，为了使用基于文件系统的源编写数据，您需要一个临时目录，这是Spark

浏览 2提问于2020-11-23得票数 0

2回答

没有用于方案的FileSystem* :带有pyspark的s3*

python、python-2.7、apache-spark

我试图用Spark从S3中读取一个txt文件，但我得到了他的错误：这是我的代码：conf = SparkConf().setAppName("first")data = sc.textFile("s3for scheme: s3 at org.

浏览 1提问于2017-10-14得票数 18

回答已采纳

1回答

在s3中阅读拼花文件，并在windows中使用火花放电在本地阅读木星笔记本

amazon-web-services、amazon-s3、pyspark、jupyter-notebook

我尝试使用朱庇特笔记本查阅s3中的文件。spark.executor.memory', '5gb') \ .getOrCreate()但是，当我运行这段代码时，会出现:我尝试<em

浏览 7提问于2022-10-28得票数 0

1回答

s3的Spark submit集群模式

apache-spark、amazon-s3、amazon-ec2、amazon-iam

我正在尝试使用集群模式提交Spark应用程序。jar位于S3中，并通过IAM角色设置对它的访问。我可以运行aws bucket cp s3 ://s3/dir/foo.jar。来获取jar文件--这很好用。作业本身不使用S3，因为all...the问题似乎是从S3获取jar。 at org.apache.spark.ut

浏览 1提问于2016-07-04得票数 1

1回答

火花上的saveAsTextFile to s3不工作，只是挂起

amazon-s3、apache-spark

我正在将csv文本文件从s3加载到spark中，过滤和映射记录，并将结果写入s3。我没有在web控制台的日志中看到任何错误。

浏览 2提问于2014-08-10得票数 5

5回答

Apache (结构化流)：S3检查点支持

apache-spark、spark-structured-streaming

根据星星之火结构化流文档：“此检查点位置必须是HDFS兼容的文件系统中的路径，并且可以在启动查询时设置为DataStreamWriter中的选项。”当然，将检查点设置为s3路径会抛出： 17/01/31 21:23:56 ERROR ApplicationMaster: User class threw exception: java.lang.IllegalArgumentException: Wrong FS: s3://xxxx/fact_checkpoints&#x

浏览 8提问于2017-02-02得票数 9

回答已采纳

6回答

用一个头合并火花输出CSV文件

scala、csv、hadoop、apache-spark

我有一个Scala脚本，它从S3获取原始数据，处理它并将其写入HDFS，甚至S3与Spark。如果我想使用AWS机器学习工具来训练预测模型，我想我可以使用多个文件作为输入。但是，如果我想使用其他的东西，我想最好是我收到一个CSV输出文件。我需要数据文件中的单行标头来训练预测模型。如果我使用.option("header","true")作为火花-csv，那么

浏览 11提问于2016-06-27得票数 29

1回答

Python无法通过EC2实例访问S3 bucket

python、apache-spark、amazon-s3、amazon-ec2、pyspark

我有一个正在运行的Amazon实例，它有一个开放的EC2策略，可以调用任何资源，这是通过调用公共S3存储桶来证明的。但是，如果我自己创建一个S3存储桶(带有一些.csv文件的mybucket)并提供一个存储桶策略 "Id": "Policy112324099371", at org.apache.hadoop.fs.FileSystem</e

浏览 4提问于2018-08-07得票数 1

3回答

NoClassDefFoundError: org/apache/hadoop/fs/StreamCapabilities同时使用spark读取s3数据

scala、amazon-web-services、apache-spark、amazon-s3、aws-sdk

我想在我的本地开发机器(通过Intellij)上运行一个简单的星火作业，从亚马逊s3读取数据。我的build.sbt文件： "org.apache.spark" %% "spark-core(FileSystem.java:2580) at org.apache.hadoop.fs.FileSystem.createFileSystem(Fil

浏览 2提问于2018-09-13得票数 19

回答已采纳

1回答

在s3文件上启动RDD创建

java、amazon-s3、apache-spark

我试图在s3文件上创建JAVARDD，但是无法创建rdd.Can，有人帮助我解决了这个问题。"); .textFile("s3://mybucket/sample.txt")java.lang.IllegalArgumentException: java.net.URISyntaxException: Expected scheme-specific

浏览 1提问于2015-05-06得票数 2

回答已采纳

1回答

电子病历上S3的外部检查点

amazon-s3、apache-flink、emr、amazon-emr、rocksdb

我使用的是一个安装了Flink 1.3.2的标准hadoop-core EMR集群，使用YARN来运行它。 at org.apache.flink.core.fs.FileSystem.get(FileSystem.java:389) at org.apache.flink.core.fs.Path.getF

浏览 1提问于2017-09-11得票数 1

1回答

使用s3读取sc.textFile("s3a://bucket/filePath")。

apache-spark、amazon-s3

(Lcom/amazonaws/services/s3/AmazonS3;Ljava/util/concurrent/ThreadPoolExecutor；：java.lang.NoSuchMethodError(FileSystem.java:2669) at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:94) at org.apache.hadoop.fs.FileSy

浏览 4提问于2017-05-12得票数 9

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云