在spark scala中获取s3目录的大小_在Scala/Spark中获取键/值对的键_使用Scala/Spark列出目录中的文件(包括文件信息) - 腾讯云开发者社区

scala、amazon-web-services、aws-glue

考虑scala代码： import com.amazonaws.services.glue.GlueContext import com.amazonaws.services.glue.util.{GlueArgParser, Job, JsonOptions} import org.apache.spark.SparkContext import scala.collection.JavaConverters.mapAsJavaMapConverter object MyGlueJob { def main(sysArgs: Array[String]) { val spa

浏览 1提问于2018-01-18得票数 2

1回答

在齐柏林飞艇中使用SparkSQL查询Hive表时，为什么会收到这个IO异常？

hadoop、apache-spark、hive、amazon-emr、apache-zeppelin

我按照的第一部分创建了一个外部配置单元表，并将其指向特定的S3 Bucket。在Hue界面中，我可以在成功创建后浏览数据示例。如果我切换到齐柏林飞艇并运行以下命令：%sql show tables，我可以看到我的表列在default数据库旁边。现在，如果我实际尝试查询表，就会得到一个java.io.IOException: Not a file: s3://my-bucket/my-subdirectory错误。这个错误是有道理的，但是Hive会让你指定一个S3存储桶，而不是一个实际的S3文件，所以我不知道如何让两者都满意！请注意，此目录中只有一个文件，并且我没有尝试任何分区。该文件经过压

浏览 1提问于2017-06-03得票数 0

1回答

在spark scala中获取s3目录的大小

scala、apache-spark、amazon-s3

我在dataframe列中有一个s3路径，我需要该路径的目录大小。在spark scala中有没有什么方法可以让我们在一个新的列中获得s3目录的大小。

浏览 24提问于2021-05-10得票数 0

回答已采纳

1回答

无法使用S3协议从s3桶中读取，只能使用s3a

scala、apache-spark、amazon-s3、amazon-emr

我已经完成了所有依赖项的线程，以便将运行在aws上的火花连接到s3桶上，但是我的问题似乎略有不同。在我看到的所有其他讨论中，s3和s3a协议具有相同的依赖关系。不知道为什么其中一个在为我工作而另一个却不在。目前，在本地模式下运行spark，s3a做得很好，但我的理解是，在EMR上运行s3是支持的(因为它依赖HDFS块存储)。要让s3协议发挥作用，我缺少什么？ spark.read.format("csv").load("s3a://mybucket/testfile.csv").show() //this works, displays the df 对比 sp

浏览 5提问于2019-10-14得票数 2

回答已采纳

1回答

如何在EMR for Scala对象上解决Spark 3加载类失败的问题

scala、apache-spark、sbt

我正在尝试构建一个简单的基于Scala的Spark应用程序并在电子病历中运行它，但是当我运行它时，我得到的是Error: Failed to load class: com.myorganization.MyScalaObj。我的Scala文件是： package com.myorganization import org.apache.spark.sql.SparkSession object MyScalaObj extends App { val spark = SparkSession.builder() .master(("local[*]"))

浏览 17提问于2020-10-02得票数 1

回答已采纳

1回答

在AWS s3中，输出文件未保存在我的存储桶中

python、amazon-web-services、amazon-s3、amazon-ec2、pyspark

我正在尝试从AWS学习本教程。我正在进行快速示例步骤。当我尝试运行该命令时： aws emr add-steps --cluster-id j-xxxxx --steps Type=spark,Name=SparkWordCountApp,Args=[--deploy-mode,cluster,--master,yarn,--conf,spark.yarn.submit.waitAppCompletion=false,--num-executors,5,--executor-cores,5,--executor-memory,20g,s3://codelocation/wordcount.p

浏览 0提问于2017-01-24得票数 2

1回答

使用SPARK从S3分区数据中删除基于分区列的重复项

apache-spark、amazon-s3、apache-spark-sql

I have a partitioned data structure on S3 as below which store parquet files in it: date=100000000000 date=111620200621 date=111620202258 The S3 key will look like s3://bucket-name/master/date={a numeric value} 我从SPARK代码中读取数据，如下所示： Dataset<Row> df = spark.read().parquet("s3://bucket-nam

浏览 0提问于2020-11-19得票数 0

2回答

Spark + S3 + IAM角色

amazon-web-services、apache-spark、amazon-s3、roles

我尝试使用IAM角色从spark读取s3存储桶中的csv文件，但在MultiObjectDeleteException上获取NoClassDefFoundError 我在没有hadoop的情况下安装了Spark 2.4.4，并安装了hadoop 3.2.1以及hadoop-aws-3.2.1.jar和aws-java-sdk-1.11.655.jar。我不得不安装一个没有hadoop的spark版本，因为作为spark构建的一部分的hadoop jar是2.7.3，这是2016年的版本。 sc.hadoopConfiguration.set("fs.s3a.credentialsTy

浏览 56提问于2019-10-19得票数 2

2回答

使用直线客户端通过Spark服务器查询冰山表时出错吗？

apache-spark、spark-thriftserver、iceberg

我正在尝试使用星火节约服务器来查询冰山表(外部表包含S3中的数据和Hivemetastore中的元数据)。我能够查询非冰山表，但是当我查询冰山表时，我得到的是以下错误。我们不可以通过星火节约服务器查询冰山表吗？版本细节火花- 3.2.1 斯卡拉- 2.12.15 冰山火花库- 我从maven中添加了其他S3、AWS依赖jars，并添加到spark文件夹中。我已经使用以下命令启动了节俭服务器 start-thriftserver.sh \ --hiveconf hive.metastore.uris=thrift://$ip:$port \ --conf spar

浏览 31提问于2022-06-14得票数 2

回答已采纳

1回答

如何在亚马逊S3中保存和使用Spark History服务器日志

scala、apache-spark、amazon-s3

我想在亚马逊S3中记录和查看星火历史服务器的事件日志。以下是spark-defaults.conf中记录的属性。 spark.hadoop.fs.s3a.impl org.apache.hadoop.fs.s3a.S3AFileSystem spark.hadoop.fs.s3a.endpoint {{endpoint}} spark.hadoop.fs.s3a.access.key {{accessKey}} spark.hadoop.fs.s3a.secret.key {{secretKey}} spark.hadoop.fs.s3a.fast.upload

浏览 63提问于2020-10-07得票数 1

2回答

读取S3 json文件时的火花内存错误-- "java.lang.OutOfMemoryError: GC开销超过限制“

json、apache-spark、amazon-s3、pyspark、out-of-memory

使用Pyspark时，当尝试将大量json文件从S3加载到dataframe时，会出现一个错误。错误似乎取决于我的火花会话使用的驱动程序内存。错误消息是"java.lang.OutOfMemoryError: GC开销超过限制“。我花了大量的时间在网上做研究，但是我没有找到任何能指出这个错误的确切原因的东西。请在下面找到完整的错误信息和代码。我希望能在这方面提供任何帮助！驱动环境我在jupyterlab中运行的jupyter笔记本中使用了pyspark，它本身运行在一个拥有30 on可用内存的EC2实例上。 Sparksession资源 spark.executor.memory

浏览 1提问于2020-04-13得票数 0

2回答

火花org.apache.hadoop.mapred.InvalidInputException S3 CSV读取返回

csv、apache-spark、amazon-s3

我在这里看到了几个帖子和谷歌搜索的org.apache.hadoop.mapred.InvalidInputException，但大多数涉及HDFS文件或陷阱错误。我的问题是，虽然我可以从spark读取CSV文件，但是从编译的JAR中运行它会不断地返回一个org.apache.hadoop.mapred.InvalidInputException错误。罐子的粗糙过程：阅读S3中的JSON文档(此工作) 从S3中的拼花文件中读取(这也成功) 将对#1和#2的查询的结果写入S3中的拼花文件(也成功) 从相同的存储桶#3中读取配置csv文件。(这失败了) 下面是我在代码中

浏览 4提问于2017-02-03得票数 0

2回答

AWS胶与雅典娜

amazon-web-services、apache-spark、aws-glue、aws-glue-data-catalog

我们正处于将所有用scala编写的星火作业迁移到aws胶水的阶段。当前流： Apache Hive -> Spark(处理/转换) -> Apache Hive -> BI 必需流程： AWS S3 (雅典娜) -> Aws Glue(火花Scala ->处理/转换) -> AWS S3 ->雅典娜-> BI 昨天我完成了这个任务，我正在做研发工作。我的问题是：我们可以在apache胶水中运行相同的代码，因为它具有动态框架，可以转换成数据帧，但需要修改代码。可以像我们在胶水中使用spark读取aws雅典娜的数据。

浏览 5提问于2020-03-16得票数 0

回答已采纳

1回答

在电子病历中使用Spark Scala获取S3对象大小(文件夹、文件)

scala、amazon-web-services、apache-spark、amazon-s3

我正在尝试从我的命令行EMR使用scala获取一些S3文件夹的大小。我将JSON数据作为GZ文件存储在S3中。我发现我可以计算我的文件中的JSON记录的数量： spark.read.json("s3://mybucket/subfolder/subsubfolder/").count 但现在我需要知道这些数据占了多少GB。我正在寻找不同文件的大小选项，但不是整个文件夹的大小。

浏览 98提问于2019-05-29得票数 4

回答已采纳

3回答

无法为s3ablock-0001找到任何有效的本地目录-

apache-spark、hadoop、pyspark、amazon-emr

当我试图在S3上编写数据时，我在亚马逊电子病历上运行乔布斯面临着一个问题。这是堆栈跟踪： org.apache.hadoop.util.DiskChecker$DiskErrorException: Could not find any valid local directory for s3ablock-0001- at org.apache.hadoop.fs.LocalDirAllocator$AllocatorPerContext.getLocalPathForWrite(LocalDirAllocator.java:463) at org.apache.hadoop

浏览 31提问于2020-10-13得票数 3

1回答

Kafka火花流增加消息大小

apache-spark、apache-kafka、spark-streaming

我有一个场景，我正在运行一个星火流作业。这是在接收卡夫卡的数据。我所要做的就是从流中提取记录，并将它们放在本地。我还为它实现了偏移处理。消息的大小可以高达5MB。当我尝试使用0.4MB - 0.6MB文件时，作业运行得很好，但是当我尝试使用1.3MB文件运行时(这比默认的1MB更大)，我将面临以下问题。 java.lang.AssertionError: assertion failed: Ran out of messages before reaching ending offset 9 for topic lms_uuid_test partition 0 start 5. This s

浏览 2提问于2017-07-27得票数 0

回答已采纳

3回答

如何从提交的spark应用程序步骤中获取AWS EMR集群id和步骤id

amazon-web-services、scala、apache-spark、amazon-emr

场景：我在AWS EMR中运行Spark Scala作业。现在，我的工作转储了该应用程序独有的一些元数据。现在为了转储，我在位置"s3://bucket/key/<APPLICATION_ID>“中写入，其中ApplicationId为val APPLICATION_ID: String = getSparkSession.sparkContext.getConf.getAppId 现在基本上有没有一种像"s3://bucket/key/<emr_cluster_id>_<emr_step_id>".这样在s3位置写东西的方法呢？如

浏览 0提问于2020-09-13得票数 2

1回答

org.apache.hadoop.fs.FileAlreadyExistsException:无法为路径创建目录：“S3A//bucket1 1/folder1 1”，因为它是一个文件

amazon-web-services、amazon-s3、pyspark

下面的代码用于将数据从oracle加载到S3。 source_data = spark.read.format("jdbc").option("url", url).option("dbtable", "scott.emp").option("fetchSize","10000").option("user", user).option("password", password) .option("driver", driver).load() had

浏览 2提问于2020-10-05得票数 0

1回答

在电子病历上的火花工作突然需要30小时(从5个小时)

amazon-web-services、apache-spark、amazon-emr

我对星火比较陌生。我有一个星火作业，运行在亚马逊EMR集群的1主和8个核心。简而言之，Spark作业从S3读取一些S3文件，将它们转换为RDD，在RDD上执行一些相对复杂的联接，最后在S3上生成其他.csv文件。这项工作，在EMR集群上执行，过去需要大约5个小时。突然之间，有一天，花了30多个小时，从那以后就开始了。输入( S3文件)没有明显的差异。我检查了日志，，在漫长的运行(30小时)中，我可以看到一些关于OutOfMemory错误的信息： java.lang.OutOfMemoryError: Java heap space at java.util.IdentityH

浏览 1提问于2019-04-17得票数 0

1回答

Delta : org.apache.spark.sql.catalyst.parser.ParseException:不匹配输入“FROM”

amazon-emr、delta-lake

我正在尝试运行对EMR/EMR笔记本的查询()- SELECT max(version), max(timestamp) FROM (DESCRIBE HISTORY delta.`s3://a/b/c/d`) 但我得到了以下错误- 同样的查询在Databricks上运行得很好。我的另一个疑问是-为什么s3位置的颜色会改变post //。因此，我尝试打破上面的查询，只运行描述历史查询。出于某种原因上面写着- 错误日志- An error was encountered: org.apache.spark.sql.AnalysisException: Table or

浏览 4提问于2021-02-18得票数 2

2回答

EMR 5.28无法在s3上加载拼图文件

apache-spark、apache-spark-sql、amazon-emr、parquet

在EMR集群5.28.0上，从s3读取拼图文件失败，出现以下异常，而在EMR 5.18.0上，同样可以正常工作。下面是EMR 5.28.0上的堆栈跟踪。我在spark-shell上也试过了 sqlContext.read.load(("s3://s3_file_path/*") df.take(5) 但失败了，并出现了相同的异常： Job aborted due to stage failure: Task 3 in stage 1.0 failed 4 times, most recent failure: Lost task 3.3 in stage 1.0 (TID

浏览 0提问于2019-12-08得票数 3

1回答

对提供java.lang.NoClassDefFoundError的S3存储桶进行Spark写入

scala、apache-spark、amazon-s3

我正在尝试将在我的Mac上运行的Spark 2.3.0与S3集成。我可以使用spark-shell对S3进行读写，没有任何问题。但是，当我尝试使用通过sbt运行的一个小Scala程序执行同样的操作时，我得到了org/apache/hadoop/fs/GlobalStorageStatistics$StorageStatisticsProvider.：java.lang.NoClassDefFoundError：我已经安装了hadoop-aws 3.0.0-beta1。我还在s3 -2.3.0/conf/spark-defaults.conf中设置了spark访问信息： spark.hadoo

浏览 3提问于2017-11-05得票数 1

2回答

“s3”资源不存在

python、pyspark、boto3

我使用Python和boto3在spark上处理了一些S3文件，当我下载这些文件时，它是不寻常的：‘S3’资源不存在。因为没有在每个集群节点上安装boto3，所以我将boto3使用的依赖包打包为zip，并使用-- py-files提交的spark集群，然后发生了这个异常。 Py4JJavaErrorTraceback (most recent call last) <ipython-input-3-8147865bf49c> in <module>() 2 3 ----> 4 extractor.extract(paths)

浏览 1提问于2018-09-29得票数 1

1回答

EMR -气流运行scala文件airflow.exceptions.AirflowException

postgresql、apache-spark、airflow、amazon-emr、mwaa

我试图使用emr从气流中运行scala文件，jar文件设计为读取mssql和postgresql。从气流中，我可以创建集群我的SPARK_STEPS看起来就像 SPARK_STEPS = [ { 'Name': 'Trigger_Source_Target', 'ActionOnFailure': 'CONTINUE', 'HadoopJarStep': { 'Jar': 'command-runner

浏览 21提问于2022-04-08得票数 1

回答已采纳

1回答

EKS上的spark操作符Apache spark未能创建临时目录。

apache-spark、kubernetes、kubernetes-helm、amazon-eks、spark-operator

我试图使用火花操作符将简单的星火-pi.yaml部署到AWS EKS。我成功地部署了火花操作员。请参考这里的部署YAML 当我执行舵机安装时，我会收到以下错误 Events: Type Reason Age From Message ---- ------ ---- ---- ------- Normal SparkApplicationAdded 8s spark-ope

浏览 15提问于2021-10-06得票数 1

1回答

从s3加载带前缀的拼花文件-可疑路径

apache-spark、amazon-s3、emr、amazon-emr

我有一组前缀(按照S3性能建议)，我想在spark中加载(使用AmazonEMR5.11.1)，但是列出与glob匹配的文件集所需的时间要比非前缀文件慢得多，这可以改进吗？如何避免下列错误？ val df = spark.read.parquet("s3://bucket/????/analytics") java.lang.AssertionError: assertion failed: Conflicting directory structures detected. Suspicious paths:? s3://b

浏览 0提问于2018-02-18得票数 0

2回答

无法在EC2上的Pyspark中从S3读取数据(独立安装)

python、amazon-web-services、apache-spark、amazon-s3、apache-spark-sql

我正在尝试将CSV文件(或任何文件)从S3 (SSE_KMS加密)读取到EC2机器上本地的pyspark设置中。我得到了不同类型的错误与不同的组合。我可以使用AWS cli下载该文件，如下所示： aws s3 ls s3://xxxx/ --profile xx 上面的命令似乎工作得很好。请看下面的pyspark代码，我得到了错误(这是我在pyspark shell中测试的)： spark.conf.set("fs.s3a.awsAccessKeyId","XXXXXXXXXXXXXX") spark.conf.set("fs.s3a.awsSecret

浏览 0提问于2021-05-16得票数 0

1回答

Apache束-无法使用hadoop- file -system sdk从S3读取文本文件。

java、hadoop、amazon-s3、apache-beam、apache-beam-io

我正在尝试使用文件系统v2.0.0和Spark作为运行程序从AWS集群中读取S3。我可以在纱线日志中看到管道能够检测到S3中的文件，但是它无法读取文件。请看下面的日志。 17/06/27 03:29:25 INFO FileBasedSource: Filepattern s3a://xxx/test-folder/* matched 1 files with total size 3410584 17/06/27 03:29:25 INFO FileBasedSource: Matched 1 files for pattern s3a://xxx/test-folder/* 17/06/2

浏览 2提问于2017-06-28得票数 1

2回答

无法启动--在s3桶上提交pyspark文件

amazon-web-services、apache-spark、amazon-s3、pyspark、amazon-emr

我有一个pyspark代码，它既存储在AWS集群的主节点上，也存储在一个s3桶中，该桶从MySQL数据库中获取超过1.4亿行，并将列的总和存储在s3上的日志文件中。当我在主节点上提交电火花代码时，作业成功完成，输出存储在S3桶上的日志文件中。但是，当我使用这些-(在SSH-ing之后在终端上使用下面的命令向主节点提交S3存储桶上的pyspark代码)时， spark-submit --master yarn --deploy-mode cluster --py-files s3://bucket_name/my_script.py这将返回一个Error: Missing applica

浏览 15提问于2020-07-02得票数 0

1回答

`spark.hadoop.fs.s3`的配置应用于`fs.s3a`而不是`fs.s3`

apache-spark、amazon-s3、google-cloud-dataproc

我读过上的答案，但我觉得不满意。原因是当我按照步骤为spark.hadoop.fs.s3设置hadoop时，s3://...路径在s3a://...路径工作时仍然存在访问问题。测试火花壳运行如下所示. s3 vs s3n vs s3a是它自己的话题，尽管我想我们不必担心s3n。但我觉得奇怪的是，s3的配置应用程序对于s3a来说是显而易见的。以下是我的问题：这是数据处理还是火花？我想火花是有这个问题的。是否有一种方法可以在不更改代码的情况下配置火花提交conf标志中的s3？这是一个bug，还是我们现在更喜欢s3a而不是‘s3？谢谢, ***@!!!:~$ spar

浏览 6提问于2017-06-01得票数 0

回答已采纳

5回答

Apache (结构化流)：S3检查点支持

apache-spark、spark-structured-streaming

根据星星之火结构化流文档：“此检查点位置必须是HDFS兼容的文件系统中的路径，并且可以在启动查询时设置为DataStreamWriter中的选项。” 当然，将检查点设置为s3路径会抛出： 17/01/31 21:23:56 ERROR ApplicationMaster: User class threw exception: java.lang.IllegalArgumentException: Wrong FS: s3://xxxx/fact_checkpoints/metadata, expected: hdfs://xxxx:8020 java.lang.IllegalArgumen

浏览 8提问于2017-02-02得票数 9

回答已采纳

2回答

星火计划过大与作业错位的解决方案

dataframe、scala、apache-spark、apache-spark-sql

我的Spark/Scala作业是在循环中处理数据。我需要使用前一个循环的结果来处理信息。我是在缓存结果，但问题是缓存的DataFrame的火花计划太大了，我的作业错误也消失了。虽然我已经找到了一种备份解决方案来编写和阅读S3，但这是很费时的。因此，如果有一种方法可以在不增加火花计划的情况下利用缓存，我想尝试一下。或者，如果有另一种方法来跟踪星火计划中的计算数据，这也会有所帮助。

浏览 4提问于2022-02-01得票数 1

1回答

对于s3上的大输入csv数据，AWS作业失败了

amazon-web-services、amazon-s3、pyspark、spark-dataframe、aws-glue

对于小型s3输入文件(~10 is )，glue ETL作业工作正常，但对于较大的数据集(~200 is)，作业失败。添加部分ETL代码。 # Converting Dynamic frame to dataframe df = dropnullfields3.toDF() # create new partition column partitioned_dataframe = df.withColumn('part_date', df['timestamp_utc'].cast('date')) # store the data in

浏览 1提问于2017-11-24得票数 4

1回答

Spark作业在写入aws s3存储桶时失败-

amazon-web-services、apache-spark、amazon-s3

Spark作业在写入aws s3存储桶时失败，我正在获取java.io.FileNotFoundException:没有这样的文件或目录堆栈跟踪： java.io.FileNotFoundException: No such file or directory: s3a://vishal/test/abc.parquet/_temporary/0/task_20190422091705_0001_m_000000 at org.apache.hadoop.fs.s3a.S3AFileSystem.getFileStatus(S3AFileSystem.java:993) at org.a

浏览 4提问于2020-06-03得票数 0

1回答

循环通过大型DynamicFrame输出到S3以避免“maxResultSize”错误

amazon-web-services、pyspark、etl、aws-glue

我有一个很大的DynamicFrame在一个AWS胶ETL作业。当试图将这些数据输出到S3时，由于任务太大，它失败了。错误：由:org.apache.spark.SparkException引起:由于阶段失败而中止作业: 3225个任务(1024.0 MB)的序列化结果的总大小大于spark.driver.maxResultSize (1024.0 MB) 我相信一个很好的解决方案将是按日期分离我的DynamicFrame，并循环从每个日期循环数据并以较小的块输出它。也许是这样的： for eventDateParam in mapped_datasource0_general.e

浏览 1提问于2018-06-15得票数 0

1回答

星星球过滤器以匹配特定的嵌套分区

apache-spark、pyspark、glob

我使用的是Pyspark，但我想这对scala也是有效的我的数据存储在s3上，结构如下  main_folder └──  year=2022 └──  month=03 ├──  day=01 │ ├──  valid=false │ │ └──  example1.parquet │ └──  valid=true │ └──  example2.parquet └──  day=02 ├──  valid=false │ └──  e

浏览 4提问于2022-03-22得票数 1

2回答

用AWS Glue Data Cataloug将星火DataFrame写入Hive表

amazon-web-services、apache-spark、amazon-s3、aws-glue、aws-glue-data-catalog

我在EMR上使用Spark2.4.0，并试图使用AWS数据目录在s3中存储简单的数据。守则如下： val peopleTable = spark.sql("select * from emrdb.testtableemr") val filtered = peopleTable.filter("name = 'Andrzej'") filtered.repartition(1).write.format("hive").mode("append").saveAsTable("emrdb.testtablee

浏览 1提问于2019-01-30得票数 5

1回答

火花误差-十进制精度39超过最大精度38

r、oracle、apache-spark

当我试图从收集数据时，我会得到一个错误声明 "java.lang.IllegalArgumentException:要求失败:十进制精度39超过最大精度38“。 Spark数据中的所有数据都来自Oracle数据库，在那里，我相信十进制精度小于38。有什么办法可以做到这一点，而不修改数据？ # Load required table into memory from Oracle database df <- loadDF(sqlContext, source = "jdbc", url = "jdbc:oracle:thin:usr/pass@ur

浏览 7提问于2017-05-23得票数 9

2回答

Spark Streaming textFileStream不支持通配符

apache-spark、hdfs、spark-streaming

我设置了一个简单的测试来流式传输来自S3的文本文件，并在尝试以下内容时使其正常工作 val input = ssc.textFileStream("s3n://mybucket/2015/04/03/") 在存储桶中，我会将日志文件放入其中，一切都会正常工作。但是如果它们是一个子文件夹，它将找不到任何放入子文件夹的文件(是的，我知道hdfs实际上并不使用文件夹结构)。 val input = ssc.textFileStream("s3n://mybucket/2015/04/") 因此，我尝试简单地使用通配符，就像我以前使用标准spark应用程序所做的那样

浏览 3提问于2015-04-03得票数 11

2回答

使用Databricks (和Apache )从AWS红移读取

apache-spark、amazon-redshift、databricks

我试图使用AWS的Databricks来执行SELECT命令。我浏览了自述并配置了：火花驱动程序到红移-我正在传递user和password选项火花到S3 -我已经使用dbfs挂载了AWS S3。红移到S3 -我要经过temporary_aws_access_key_id，temporary_aws_secret_access_key，temporary_aws_session_token 注意，，这是概念的一种证明，所以我忽略了所有的安全细节，比如加密。下面是我在Databricks笔记本中使用的配置： %python # Read data from a t

浏览 16提问于2022-02-18得票数 0

回答已采纳

2回答

AWS Glue ETL作业失败，并显示“无法删除密钥:parquet output/_temporary”

amazon-web-services、csv、etl、parquet、aws-glue

我正在Glue Crawler生成的CSV数据表上运行Glue ETL作业。Crawler命中具有以下结构的目录 s3 -> aggregated output ->datafile1.csv ->datafile2.csv ->datafile3.csv 这些文件被聚合到一个“聚合输出”表中，可以在athena中成功地进行查询。我正在尝试使用AWS Glue ETL作业将其转换为拼图文件。作业失败，原因是 "py4j.protocol.Py4JJavaError: An error occu

浏览 46提问于2019-05-13得票数 2

回答已采纳

1回答

Spark提交REST集群/独立模式-使用STS启动s3a jar

amazon-web-services、apache-spark、hadoop、amazon-s3

/var/lib/spark-2.3.4-bin-hadoop2.7/bin/spark-submit --master spark://myhost:6066 --conf spark.hadoop.fs.s3a.access.key='redact1' --conf spark.executorEnv.AWS_ACCESS_KEY_ID='redact1' --conf spark.driverEnv.AWS_ACCESS_KEY_ID='redact1' --conf spark.hadoop.fs.s3a.secret.key='

浏览 4提问于2021-07-01得票数 0

1回答

星星之火S3委员会什么也不写

apache-spark、amazon-s3

我的星盘集群有以下设置： Hadoop 3.1 Spark 2.4.4 Scala 2.12.8 (OpenJDK 64-Bit Server VM, Java 1.8.0_212) JARs: hadoop-aws-3.1.0.jar spark-hadoop-cloud_2.11-2.3.2.3.1.0.6-1.jar 以下是相关的火花设置： (spark.hadoop.fs.s3a.committer.staging.unique-filenames,true) (spark.hadoop.fs.s3.impl,org.apache.hadoop.fs.s3a.S3AFileSyste

浏览 8提问于2020-04-15得票数 0

回答已采纳

2回答

如何处理到Azure DB的Databricks大容量插入错误

scala、azure-sql-database、azure-databricks

我正在尝试通过Azure Databricks使用Scala和Spark Connector运行批量插入。我收到来自SQL Server的关闭连接错误。一部分数据将传递到目标表，但只占总数的一小部分。不知道以前有没有人见过这个案子。编辑:我注意到在提到远程RPC客户端解除关联的驱动程序上出现了错误。这可能是由于命中服务器的批量插入的数量达到了最大阈值，我现在正在尝试使用功能较弱的集群，看看减少的并发性是否能修复它。代码： %scala import com.microsoft.azure.sqldb.spark.bulkcopy.BulkCopyMetadata import com.mi

浏览 2提问于2019-10-23得票数 1

1回答

生成用于查找的单行数据帧

scala、apache-spark、apache-spark-sql、spark-structured-streaming

这是我之前发布的后续question。步骤1： scala> spark.sql("select map('s1', 'p1', 's2', 'p2', 's3', 'p3') as lookup").show() +--------------------+ | lookup| +--------------------+ |[s1 -> p1, s2 -> ...| +--------------------+ 第2步： scala

浏览 17提问于2020-09-30得票数 2

回答已采纳

1回答

PySpark -在存储在S3中的CSV上运行dataframe.sql时获取BufferOverflowException

apache-spark、amazon-s3、pyspark、databricks、minio

当我在存储在S3中的CSV上尝试Spark SQL query时，我得到了BufferOverflowException。我实际上在S3中使用的是GZIP压缩的CSV。 from pyspark.sql.types import * schema = StructType([ StructField('is_male', BooleanType(), False), StructField('weight_pounds', DoubleType(), False), ]) df = spark.read.format("minioSelectCSV&

浏览 0提问于2019-03-30得票数 2

1回答

在S3中使用FileUtil.copy将文件从HDFS上传到DiskErrorException:目录不是可写错误吗？

scala、apache-spark、hdfs

我正在尝试将一个拼花文件写入HDFS，然后将其复制到s3。我用齐柏林飞艇( Zeppelin )编写了代码，效果很好。没有任何问题，它将文件添加到s3文件路径。 var outputFolder = "buckent_name/path" println("\n ---- TASK 1 ----- \n writing with path " + outputFolder) wholeParquetFile .withColumn("date_col", to_date(col("timestamp"), &

浏览 11提问于2022-05-17得票数 -1

回答已采纳

2回答

使用pyspark重新分区失败并出现错误

pyspark、apache-spark-sql、parquet

我有实木地板在s3文件夹与下面的镶木地板的column.Size大约是40MB。 org_id, device_id, channel_id, source, col1, col2 目前分区位于3列org_id device_id channel_id上我想要将分区更改为source, org_id, device_id, channel_id.，我正在使用pyspark从s3读取文件并将其写入s3存储桶。 sc = SparkContext(appName="parquet_ingestion1").getOrCreate() spark = SparkSession(s

浏览 0提问于2020-04-29得票数 1

1回答

电子病历上的自定义数据源插件抛出java.lang.NoClassDefFoundError: scalaj/http/Http

scala、amazon-web-services、apache-spark、pyspark、amazon-emr

我正在使用位于此处的自定义数据源https://github.com/sourav-mazumder/Data-Science-Extensions/releases 当我在本地使用Dockerized Spark环境处理它时，它可以按预期工作。然而，当我在EMR上使用它时，我在这个问题标题中得到错误。以下是使用的EMR配置选项、Spark启动消息以及我运行它时的测试代码和结果。我不确定我还需要配置什么。 ? 配置为： [ { "configurations": [ { "classification":

浏览 24提问于2019-04-12得票数 2

回答已采纳

1回答

写入S3 on LocalStack with Spark3: RemoteFileChangedException - S3在打开位置时报告的更改。ETag不可用

scala、apache-spark、amazon-s3、testcontainers、localstack

我试图在测试容器中的Local堆栈中将拼图写入S3，并得到以下错误： org.apache.hadoop.fs.s3a.RemoteFileChangedException: open `s3a://***.snappy.parquet': Change reported by S3 during open at position ***. ETag *** was unavailable 它使用的是真正的S3，它使用的是Spark2.4和Hadoop2.7。我使用的是: Scala 2.12.15，Spark 3.2.1，hadoop-aws 3.3.1，testcontainer

浏览 9提问于2022-06-14得票数 0