如何在Scala中从S3文件创建动态数据框？

在Scala中从S3文件创建动态数据框的方法是通过使用AWS SDK for Java中的Amazon S3客户端库以及Apache Spark中的SparkSession来实现。

下面是详细步骤：

导入所需的库和模块：

import org.apache.spark.sql.{DataFrame, SparkSession}
import org.apache.hadoop.fs.{FileSystem, Path}
import com.amazonaws.auth.{AWSStaticCredentialsProvider, BasicAWSCredentials}
import com.amazonaws.services.s3.AmazonS3ClientBuilder

创建AWS S3客户端：

val accessKey = "Your_AWS_Access_Key"
val secretKey = "Your_AWS_Secret_Key"
val region = "Your_AWS_Region"
val credentials = new BasicAWSCredentials(accessKey, secretKey)
val s3Client = AmazonS3ClientBuilder.standard()
  .withCredentials(new AWSStaticCredentialsProvider(credentials))
  .withRegion(region)
  .build()

val s3Bucket = "Your_S3_Bucket_Name"
val s3FilePath = "Your_S3_File_Path"
val localTempDir = "Your_Local_Temp_Directory_Path"
val localFilePath = localTempDir + "/temp_file.csv"

val fs = FileSystem.get(sparkSession.sparkContext.hadoopConfiguration)
fs.copyToLocalFile(new Path(s"s3a://$s3Bucket/$s3FilePath"), new Path(localFilePath))

使用SparkSession读取本地文件并创建动态数据框：

val spark = SparkSession.builder().getOrCreate()
val dynamicDataFrame = spark.read
  .format("csv")
  .option("header", "true")
  .option("inferSchema", "true")
  .load(localFilePath)

在上述代码中，需要将以下参数替换为实际的值：

Your_AWS_Access_Key: 替换为您的AWS访问密钥。
Your_AWS_Secret_Key: 替换为您的AWS秘密访问密钥。
Your_AWS_Region: 替换为您的AWS区域，例如："us-west-2"。
Your_S3_Bucket_Name: 替换为您的S3存储桶名称。
Your_S3_File_Path: 替换为您要读取的S3文件的路径。
Your_Local_Temp_Directory_Path: 替换为本地临时目录的路径。

通过以上步骤，您可以使用Scala从S3文件创建动态数据框。这对于处理大规模数据集和进行数据分析非常有用。

推荐的腾讯云相关产品：腾讯云对象存储（COS）。COS是一种高可用、可扩展、低成本的云端存储服务，适用于图片、音视频、文档等各种数据类型的存储和处理。您可以访问腾讯云官方网站了解更多关于腾讯云对象存储（COS）的详细信息：腾讯云对象存储（COS）。

Spark :基于s3文件中的字段动态生成查询

、、

过度简化的场景：--在s3文件中生成每月数据的过程。每个月运行的字段数可能不同。基于s3中的这些数据，我们将数据加载到一个表中，并且我们手动地(在每次运行中字段的数目可能会随着添加或删除几个列而改变)运行一个metrics.There，因为很少的metrics.There会对这些数据进行更多的计算/转换，但是为了让初学者我呈现更简单的usecase版本。 Approach：考虑到模式少的特性，由于每次运行时s3文件中的字段数可能不同，只需添加/删除几个字段，这就需要在SQL中每一次进行手动更改，因此我计划探索Spark/Scala，这样我们就可以直接从s3中读取数据，并根据字段动态生成SQL。

浏览 7提问于2020-03-19得票数 1

1回答

AWS :无法使用S3 -Spark处理来自多个源的数据，使用AWS处理postgreSQL桶和postgreSQL db

、、、、

对于我的需求，我需要连接PostgreSQL db(托管在RDS中)中的数据和S3桶中的文件。我已经创建了一个Glue job(spark-scala)，它应该连接到PostgreSQL、S3桶和完成处理。但是Glue作业在连接到S3时遇到了S3连接超时(下面是错误消息)。它正在成功地从PostgreSQL中获取数据。与S3没有权限相关的问题，因为我能够使用不同的作业从同一个S3桶/路径进行读写。只有当我尝试在一个胶水作业/脚本中连接postgreSQL和S3时，才会出现异常/问题。在Glue作业中，使用SparkContext作为对象创建胶水上下文。我尝试过创建两种不同的sparkSe

浏览 2提问于2021-06-12得票数 0

1回答

如何在Laravel Vapor中从S3检索文件

、、

我在用Laravel Vapor成功存储图片后，在html中动态加载图片时遇到了问题。我遵循了laravel vapor提供的this文档来存储文件，它的工作方式非常出色。我将上传的文件从tmp目录复制到S3存储桶的根目录中，然后将该文件的路径存储在我的数据库图像表中，以便稍后我可以将该文件路径返回到我的前端并在我的浏览器中显示图像。不幸的是，这总是从亚马逊网络服务S3返回403状态代码。我可以通过公开我生成的S3存储桶来解决这个问题，但这会引发一个安全问题。我相信这应该是开箱即用的，不确定我会错在哪里……有什么想法吗？我正在使用存储外观返回上传的图像url。 use Illumin

浏览 18提问于2020-01-06得票数 0

回答已采纳

1回答

使用Informatica powercenter在亚马逊S3存储桶中创建文件夹模式

、、

我们需要使用Informatica powercenter 10.2 Hotfix 1将数据从teradata实现到亚马逊S3存储桶层中，所以我们的想法是将目标文件放在S3存储桶中的动态文件夹中，如s3://amazon.s3.bucket/YYYYMM/Schema/File.csv 我想动态传递文件的s3存储桶路径和文件名，如果不存在，则创建路径。如有任何建议，不胜感激。谢谢

浏览 0提问于2021-06-17得票数 0

1回答

如何自动化我的AWS星火脚本

、

我是新来的AWS，我已经学习和开发了火花-scala的代码。我的应用程序基本上合并了两个文件并创建了最终输出。我从S3桶中读取了两个文件(主文件和INCR文件)。一切都很好，我也得到了正确的输出。但我不知道如何使整个过程自动化投入生产。下面是我为获得输出所做的步骤。步骤1:加载主文件(5K文本文件).I am读取EC2中的文件，然后上传到S3桶中。步骤2:加载INCR (增量文件)与加载主文件的方式相同。步骤3:从UI手动创建EMR集群。步骤4:打开齐柏林飞艇笔记本，复制粘贴星火-scala脚本并运行。步骤5:再次创建EC2实例，以读取S3桶并将输出文件从S3发送到S3客户端

浏览 0提问于2018-01-14得票数 2

回答已采纳

1回答

在输出文件作业中添加.csv扩展

、、、

我试图从python胶水动态帧中保存csv文件。下面是我的密码- glueContext.write_dynamic_frame.from_options( frame=splender_df, connection_type="s3", connection_options={"path": 's3://splender_df/'}, format="csv", 但是它正在创建20个文件，其中没有一个文件具有csv扩展名(.csv)。如何在文件名中只有一个扩展名为.csv的文件。

浏览 6提问于2022-01-25得票数 0

回答已采纳

1回答

如何在Glue脚本中从元数据中检索数据创建表

、

在AWS Glue中，虽然我读过文档，但是我一件事都没有被清除。下面是我所理解的。关于Crawler:这将为S3或DynamoDB表创建一个元数据表。但我不明白的是: Scala/Python如何能够使用元数据创建的表从实际来源(比如DynamoDB or S3)检索数据。 val input = glueContext .getCatalogSource(database = "my_data_base", tableName = "my_table") .getDynamicFrame() 上线是否通过元数据表从实际源检索数据？如

浏览 2提问于2020-08-21得票数 0

回答已采纳

2回答

如何将文件名自动提取到数据框中，而不是手动指定

、

我正在尝试用Scala或python自动化我的spark代码，这就是我想要做的 s3存储桶中的文件格式为filename_2016_02_01.csv.gz 从s3存储桶中，spark代码应该能够选择文件名并创建数据帧 example Dataframe=sqlContext.read.format("com.databricks.spark.csv").options(header="true").options(delimiter=",").options(inferSchema="true").load("s3://

浏览 0提问于2016-02-04得票数 1

1回答

我们如何在Snowflake中处理雪地管道中的数据验证

我的场景是我在亚马逊网络服务的S3平面文件中有数据。当新文件到达S3时，我使用SNS触发雪花管道。为了将数据从S3中的平面文件加载到Snowflake表中，我使用了Snow-pipe。那么，当通过Snow-pipe将数据从平面文件加载到snowflake表时，我是否可以对源数据进行数据验证和一些计算？如果我们有什么办法的话请帮帮我。提前谢谢。

浏览 0提问于2020-02-28得票数 0

1回答

EMR -气流运行scala文件airflow.exceptions.AirflowException

、、、、

我试图使用emr从气流中运行scala文件，jar文件设计为读取mssql和postgresql。从气流中，我可以创建集群我的SPARK_STEPS看起来就像 SPARK_STEPS = [ { 'Name': 'Trigger_Source_Target', 'ActionOnFailure': 'CONTINUE', 'HadoopJarStep': { 'Jar': 'command-runner

浏览 21提问于2022-04-08得票数 1

回答已采纳

2回答

使用spark优化S3到S3的转换

、、、、

我正在学习spark/scala，并尝试使用scala语言尝试下面的场景。场景:从一个S3存储桶文件夹复制多个文件到另一个S3存储桶文件夹。到目前为止所做的事情： 1)使用亚马逊网络服务S3开发工具包和scala：-从S3源位置创建文件列表。-遍历列表，传递步骤1中的源和目标S3位置，并使用S3接口copyObject将这些文件复制到目标位置(已配置)。这是可行的。但是，我想知道，如果我在多个文件夹中有大量文件，这是最有效的方法吗?或者我可以使用spark来并行处理这个文件副本吗？我想的方法是： 1)使用S3 SDK获取与上面类似的源路径 2)使用sc.parallelize()为每个文

浏览 0提问于2018-04-15得票数 1

2回答

如何在不使用火花的情况下从AWS内部读取S3桶中的文本文件

、、

我需要打开一个普通的文本文件位于一个S3桶(不是一个地板或CSV文件)从一个电子病历集群。我可以直接使用spark.read.parquet("s3://mybucket/some_parq_file")打开CSV或拼板文件但是我只需要使用、java.io.File或scala.io.Source从EMR集群读取一个常规文本文件。当我尝试的时候得到一个java.io.FileNotFoundException import scala.io.Source val hdr = "s3://mybucket/txtfile.txt" for (line <-

浏览 3提问于2019-11-14得票数 0

回答已采纳

1回答

如何在有防火墙的Amazon上动态禁止IP地址？

、、、、

我想动态地禁止IP地址，所以当软件检测到恶意活动(在10秒内连续点击10页或特定的UserAgent或)时，它会创建一个带有黑名单的IP-s的".txt“文件。我有四条路可走：禁止使用防火墙的IP，这样它甚至不会到达EC2实例，也不会到达S3。使用IP列表创建一个.htaccess RewriteMap，然后禁止它们进入httpd.conf 在PHP一开始就禁止使用从.txt文件中读取IP列表的方法(无需连接到MySQL，我觉得更安全)。在PHP开始时禁止IP，从MySQL读取IP列表。显然，第一个是理想，但有什么方法可以做到这一点吗？不幸的是，我是亚

浏览 2提问于2013-05-02得票数 0

1回答

在电子病历中使用Spark Scala获取S3对象大小(文件夹、文件)

、、、

我正在尝试从我的命令行EMR使用scala获取一些S3文件夹的大小。我将JSON数据作为GZ文件存储在S3中。我发现我可以计算我的文件中的JSON记录的数量： spark.read.json("s3://mybucket/subfolder/subsubfolder/").count 但现在我需要知道这些数据占了多少GB。我正在寻找不同文件的大小选项，但不是整个文件夹的大小。

浏览 98提问于2019-05-29得票数 4

回答已采纳

1回答

如何在从SQL Server读取数据时更改: spark.read.jdbc使用的默认时区

、、

我使用的是Databricks Runtime 4.2 (包括Apache Spark 2.3.1、Scala 2.11) 在Scala笔记本上，当我使用如下命令通过JDBC从SQL Server 2012读取数据时： val data_frame =val(，，) 我的源表上的所有SQL Server日期时间列都映射到数据框中的时间戳列，默认时区为+0000。有没有办法将动态分配的默认时区+0000更改为：-0700 (MTS)？注意:如果可能，我希望不必遍历所有的时间戳列来应用转换，相反，我希望更改JDBC驱动程序的行为，告诉它使用不同的时区。

浏览 1提问于2018-07-18得票数 3

1回答

使用aws，我可以从CloudFront URL而不是直接从S3检索文件吗？

、、、

我正在使用CloudFront支持的S3在客户端站点上存储大量(有时是gigs)图像和视频，而开发人员有时只需要整组图像就可以调试问题。我们使用awscli来同步文件，它运行良好。但是，如果不是从S3中提取，我可以从CloudFront url中提取，下载速度会更快，并且使用更少的出站S3数据。有什么简单的方法吗？也许：一个我不知道的命令或旗子？动态重写S3 url？输出将要下载的文件列表，这样我就可以对它们编写脚本curl了吗？使用cf命令来做一些事情？

浏览 3提问于2017-11-30得票数 0

1回答

如何连接s3文件而不访问密钥详细信息

、、、

我们有一台unix机器，可以直接访问我们的s3桶。我们能够从unix机器上运行所有cli命令，比如"aws s3 ls“。现在，我们需要从那里读取一个文件，并使用pyspark创建一个星火数据框架。因此，现在需要对unix框进行ssh连接，并读取该文件并创建星火数据框架。有没有人能帮助我们如何访问s3而不用使用pyspark访问关键细节。

浏览 2提问于2022-10-19得票数 0

1回答

如何检测亚马逊S3中的变化？

、

可能重复：检测亚马逊S3中的变化最有效的方法是什么？许多分布式框需要将本地文件与S3同步。每个盒子都需要与S3桶的一部分同步。有时，文件会从外部源掉进桶中，因此这些框将不知道。我可以编写一个脚本，不断地爬行S3上的所有文件，并在发生更改时通知适当的框，但这将是缓慢和昂贵的。(将有数百万份文件)。我曾考虑过在存储桶上启用日志记录，但是编写日志需要很长时间，而且我希望能够很快地得到更改通知。还有其他想法吗？

浏览 1提问于2012-04-27得票数 4

2回答

AWS胶与雅典娜

、、、

我们正处于将所有用scala编写的星火作业迁移到aws胶水的阶段。当前流： Apache Hive -> Spark(处理/转换) -> Apache Hive -> BI 必需流程： AWS S3 (雅典娜) -> Aws Glue(火花Scala ->处理/转换) -> AWS S3 ->雅典娜-> BI 昨天我完成了这个任务，我正在做研发工作。我的问题是：我们可以在apache胶水中运行相同的代码，因为它具有动态框架，可以转换成数据帧，但需要修改代码。可以像我们在胶水中使用spark读取aws雅典娜的数据。

浏览 5提问于2020-03-16得票数 0

回答已采纳

1回答

spark编写的拼图文件中的Athena/Hive时间戳

、、、、

我们从spark写入文件，从Athena/Hive读取文件。在使用hive时，我们遇到了时间戳问题。 scala> val someDF = Seq((8, "2018-06-06 11:42:43")).toDF("number", "word") someDF: org.apache.spark.sql.DataFrame = [number: int, word: string] scala> someDF.coalesce(1).write.mode("overwrite").option("del

浏览 0提问于2018-06-06得票数 3

2回答

始终从spark中的s3存储桶中读取最新文件夹

、、、

下面是我的s3存储桶文件夹结构 s3://s3bucket/folder1/morefolders/$folder_which_I_want_to_pick_latest/ $folder_which_I_want_to_pick_latest -对于每个新文件夹，此文件夹可以始终具有递增的数字，如randomnumber_timestamp 有没有一种方法可以通过总是从Scala中的spark读取s3中的最新文件夹来自动执行此过程

浏览 19提问于2020-01-28得票数 2

1回答

在尝试使用AWS Glue中的笔记本创建动态框架时，我遇到错误"java.io.FileNotFoundException:没有这样的文件或目录“

、、、

我正在AWS Glue中设置一个新的Jupyter Notebook作为开发端点，以便测试一些运行ETL脚本的代码。到目前为止，我使用AWS Glue创建了一个基本的ETL脚本，但由于某些原因，当我试图在Jupyter Notebook上运行代码时，我总是得到一个FileNotFoundException。我正在使用一个由associated创建的表(在数据目录中)来获取与S3存储桶相关联的信息，并且我能够实际获得存储桶中的文件名，但是当我尝试使用动态框架读取文件时，抛出了FileNotFoundException。以前有没有人遇到过这个问题？这是在N.Virginia AWS帐户上运行

浏览 0提问于2019-07-10得票数 5

1回答

带有Docker支持的EMR6Beta有S3访问问题

、、、

我正在探索新的EMR 6.0.0与码头的支持，以便作出决定，如果我们想使用它。我们的一个项目是用Scala2.11编写的。但是EMR6.0.0是从Scala2.12构建的Spark。所以我转而尝试6.00-beta，它是由Scala2.11构建的Spark2.4.3。如果它在6.0.0-beta上工作，那么我们将把我们的代码升级到Scala 2.12并使用6.0.0。我遇到的几个问题是，当我试图运行Scala星火作业时：当试图从S3读取拼图时，我得到了错误: java.lang.RuntimeException:无法创建临时目录:/mnt/s3当我尝试使用https进行API调用时，我得到

浏览 3提问于2020-04-27得票数 1

1回答

使用Scala数据from创建带有分区的单元表

、、、、

我需要一种方法来从创建一个蜂箱表。hive表应该具有按日期分区的S3位置中的ORC格式的底层文件。到目前为止，我得到的是：我用ORC格式将scala数据写入S3。 df.write.format("orc").partitionBy("date").save("S3Location) 我可以在S3位置看到ORC文件。我现在在这些ORC文件的顶部创建一个单元表： CREATE EXTERNAL TABLE "tableName"(columnName string) PARTITIONED BY (date string) STORED

浏览 3提问于2020-10-30得票数 0

1回答

如何在中使用目标数据验证器？

、、、

我正在尝试运行由Target创建的称为数据验证器的数据验证框架，以验证Azure databricks中一个parquet文件中的数据。我已经创建了一个火花作业，它将使用数据验证器fat jar文件。如果我给出一个参数--帮助，我可以获得关于如何使用数据验证器的帮助，但是当我传递--config test_config.yaml文件时，数据验证器找不到该文件。 OpenJDK 64-Bit Server VM warning: ignoring option MaxPermSize=512m; support was removed in 8.0 Warning: Ignoring non

浏览 3提问于2021-12-30得票数 1

1回答

NodeJS:动态从另一个流创建大小调整的文件流

、、、、

我需要用NodeJS和swagger编写一个上传代码。所需的是创建两个调整大小的文件并将它们发送到AWS S3。我可以这样做：将传入文件保存在磁盘上。打开原始文件，调整大小(版本1)并将其保存在磁盘上。再次打开原始文件，调整其大小(第2版)并将其保存在磁盘上。从stream1创建version1 从stream2创建version2 将这两个流发送到S3 删除剩余文件我正在寻找的是创建大小调整的文件从传入流动态，并将他们发送到S3，而不保存在磁盘上的任何东西。这个是可能的吗？是否有模块可以从另一个流中创建大小调整的图像流？我可以从上传的文件中获取

浏览 3提问于2017-09-01得票数 0

1回答

如何在Scala或Java中模拟或存根AWS S3桶调用？

、、、、

我使用Akka框架和Scala创建了一个应用程序，该应用程序使用SDK将文件发送到我的S3桶。我试图为代码编写单元和集成测试，我不确定如何模拟或存根这些外部调用，因为看起来SDK并不是在进行任何明显的HTTP或WS调用。是否有一个库可以模拟或存根S3桶调用，这也与Scala或Java兼容？

浏览 1提问于2017-10-17得票数 4

回答已采纳

1回答

是否可以将数据从beam ( S3 )流到S3桶？

、、、

目前，我正在开发一个项目，该项目使用Scala中的Scio从BigQuery表中提取数据。我能够提取数据并将其摄入到ElasticSearch中，但我也试图这样做，但使用S3存储桶。当然，我能够使用saveAsTextFile方法将数据写入txt文件，然后将其从我的机器上传到s3桶中，将正确的库添加到sbt中。但是，我不知道是否有可能立即编写saveCustomOutput代码将数据写入S3，而不是使用本地存储。

浏览 1提问于2022-05-03得票数 1

回答已采纳

1回答

如何在winforms中动态地向listview中添加项

、

我的列表视图.It有列"FirmName“"AccountNo”“.I”从文本框中获取值，而不是从数据库中获取值。实际上，我的问题是，“当我单击按钮时如何从文本框中动态地向列表视图中添加项目”。

浏览 4提问于2012-11-29得票数 0

回答已采纳

1回答

是否可以在sbt控制台中创建RDD？

、、

我在SBT控制台中工作，并导入了以下内容 scala> import org.apache.spark._ scala> val sc = new SparkContext("local", "shell") scala> import org.apache.spark.rdd._ 我想在控制台中做一个RDD[Myclass]。这有可能吗？ scala> case class MyClass(foobar: String, something: String) 我想这样做的原因是使用RDD并创建我可以测试的示例数据。而不是读取textFi

浏览 3提问于2016-09-29得票数 0

回答已采纳

1回答

动态数据消防水带日志数据采用加密形式。

、、

强文本I创建一个aws跨帐户日志数据共享与订阅。通过遵循这个在创建了动态流之后，创建了动态数据、消防软管交付流、以将日志保存在s3桶中。记录在S3桶中创建的文件，但以加密形式记录文件。在发送方没有KMS密钥..。我怎么能看到原木..。也无法在base64中手动解密。更新：我发现S3桶中的日志存储有“Content应用程序/八位流”。当我将内容类型更新为"text/plain"时。是否有任何方式设置桶级内容类型或在动态数据流或消防软管中配置？是否有任何方法来设置s3文件夹的内容类型？

浏览 2提问于2020-07-23得票数 1

1回答

Scala & DataBricks:获取文件列表

、、、

我正在尝试在Scala中的Databricks上创建一个S3存储桶中的文件列表，然后按正则表达式拆分。我对Scala非常陌生。python的等价物是 all_files = map(lambda x: x.path, dbutils.fs.ls(folder)) filtered_files = filter(lambda name: True if pattern.match(name) else False, all_files) 但是我想用Scala来做这件事。来自 import java.io.File def getListOfFiles(dir: String):List[Fil

浏览 0提问于2018-10-04得票数 3

回答已采纳

1回答

如何在Java类中调用Scala方法

、、

由于我需要Play应用程序加载和读取单个消息文件，我正在考虑从我的loadMessages()类MessagesPlugin类调用Scala类的Application方法，并传递单个消息文件的路径。我假设当我的应用程序启动时，它将调用Scala的loadMessages()方法并创建单个消息文件的映射。如果我的理解是错误的，请纠正。由于我对Scala编程完全陌生，如果我以错误的方式调用Java类中的Scala方法，请纠正我： import play.api.i18n.MessagesPlugin; class Application{ private static boolean

浏览 2提问于2014-04-11得票数 0

回答已采纳

2回答

火花org.apache.hadoop.mapred.InvalidInputException S3 CSV读取返回

、、

我在这里看到了几个帖子和谷歌搜索的org.apache.hadoop.mapred.InvalidInputException，但大多数涉及HDFS文件或陷阱错误。我的问题是，虽然我可以从spark读取CSV文件，但是从编译的JAR中运行它会不断地返回一个org.apache.hadoop.mapred.InvalidInputException错误。罐子的粗糙过程：阅读S3中的JSON文档(此工作) 从S3中的拼花文件中读取(这也成功) 将对#1和#2的查询的结果写入S3中的拼花文件(也成功) 从相同的存储桶#3中读取配置csv文件。(这失败了) 下面是我在代码中

浏览 4提问于2017-02-03得票数 0

1回答

正在将pyspark数据帧写入文本文件

、

我有一个从sql server中的一个表创建的pyspark数据框架，我对它做了一些转换，现在我要将它转换为动态数据框架，以便能够将其保存为s3存储桶中的文本文件。当我将数据帧写入文本文件时，我将向该文件添加另一个头文件。这是我的动态数据框，将保存为文件： AT_DATE | AMG_INS | MONTHLY_AVG 2021-03-21 | MT.0000| 234.543 2021_02_12| MT.1002 | 34.567 我想在上面添加另一个头文件，当我保存我的文本文件时，我需要添加另一行，如下所示： HDR,FTP,PC AT_DATE,AMG_INS,MONTHL

浏览 0提问于2021-04-23得票数 0

1回答

如何使用glue动态指定s3路径？

、、、

我正在使用glue将一些文件从关系数据库源文件写入s3。我希望s3路径采用此格式的bucket_name/database/schema/table/year/month/day格式。我正在从配置文件中读取bucket_name、数据库、模式和表名。我想使用从配置文件中读取的参数来动态指定保存这些源文件的s3路径。我正在使用glue dynamic frame将源文件写入s3。在glue脚本中，我动态地提到了路径: s3_target_path = 's3://‘+ target_bucket_name + '/’+ database + '/‘+ schema +

浏览 28提问于2021-10-28得票数 0

4回答

使用AWS的动态网站

、、、

我想主持一个动态网站使用AWS无服务器。我计划使用Lambda、API、DynamoDB和S3。我的前端页面将驻留在S3中。拦截器是有一些动态项目，如用户名和其他元数据，这将是特定于用户的。到目前为止，我知道我们能做的最好的就是从S3中提取html页面。然后，我如何继续并将这些变量包含在这些页面中？我会用NodeJS写lambda。

浏览 2提问于2017-08-22得票数 1

回答已采纳

1回答

将文件从s3移动到电子病历并解压(Scala)

、、、

我在S3上有一个很大的.tar.gz文件，我想把它移动到EMR HDFS (或临时S3存储桶)并解压缩，这样我就可以读取里面的一些小文件了。我现在正在做的是有一个外壳脚本将文件从S3下载到本地(使用AWS CLI)，并让scala/spark作业在未压缩的下载文件上运行以生成一些结果。我想要做的是在一个Scala/Spark作业中做所有的工作，它应该将文件从S3移动到EMR (或另一个S3临时位置)解压缩并处理文件。我知道我们有可以在S3和EMR之间移动文件的，但是我如何在Scala代码中使用它(目前我只能在EMR shell中运行S3DistCp )？我们是否有任何库来使用该命令？另

浏览 1提问于2018-02-21得票数 1

1回答

如何在PHP堆栈上建立基于Cloudfront的图像视频托管AWS弹性豆杆

、、、

浏览 0提问于2016-12-03得票数 4

回答已采纳

1回答

Scala:将要执行的方法列表存储在文本文件中

我有一个包含多个方法的Scala应用程序。我希望能够将这些方法的子集列表存储在某个文本文件中。当我的应用程序执行时，我希望它读取执行我在那里指定的方法的文本文件。你知道怎么做吗？我知道我可以在Scala (ListInt => Int或类似的东西)中创建包含方法名称的函数列表，然后遍历该列表。问题是如何从文本文件动态创建列表，并让Scala识别我正在尝试给它一个方法名，而不仅仅是一个纯文本字符串。谢谢。

浏览 0提问于2017-03-23得票数 0

1回答

从S3桶中的最新文件夹读取数据

、、

我的S3存储桶包含多个文件夹(文件夹名为“：MM:SS”格式)。我想使用Glue作业(Scala)从最新的文件夹中读取数据。你能帮我解决这个问题吗？谢谢

浏览 11提问于2022-10-28得票数 1

回答已采纳

2回答

在S3桶中用元数据处理五旬节中的CSV文件

、、

我有一个CSV文件，它是这样的： Report Name: Stackoverflow parse data Date of Report: 31 October, 2022 Col1, Col2, Col3,... Data, Data, Data, ... 标题之前的值(本质上是用来说明CSV的用途和创建它的时间的数据)(可以包含多个值，因此具有动态行数)需要从CSV中删除，这样我就可以在Pentaho中解析它。现在，CSV文件位于S3桶上，我正在使用S3 CSV Input获取它们，但我不知道如何继续过滤非必需的数据，以便成功地解析CSV文件。

浏览 16提问于2022-10-31得票数 0

1回答

在电子病历上的火花工作突然需要30小时(从5个小时)

、、

我对星火比较陌生。我有一个星火作业，运行在亚马逊EMR集群的1主和8个核心。简而言之，Spark作业从S3读取一些S3文件，将它们转换为RDD，在RDD上执行一些相对复杂的联接，最后在S3上生成其他.csv文件。这项工作，在EMR集群上执行，过去需要大约5个小时。突然之间，有一天，花了30多个小时，从那以后就开始了。输入( S3文件)没有明显的差异。我检查了日志，，在漫长的运行(30小时)中，我可以看到一些关于OutOfMemory错误的信息： java.lang.OutOfMemoryError: Java heap space at java.util.IdentityH

浏览 1提问于2019-04-17得票数 0

1回答

如何在SBT项目中添加引渡

、

我是新的scala和SBT。我正在尝试编写一个追踪引擎，它可以将JSON string读入object，并将Object写回JSON string。为此，我使用eclipse作为IDE，SBT(0.13.13)作为构建工具和jackson。在试图导入scala文件中的依赖项时，我遇到了一些错误。我的步骤如下：我在我的项目的dependency中添加了这两个build.sbt libraryDependencies += "com.fasterxml.jackson.core“% "jackson-databind”% "2.5.3“libraryDependenc

浏览 4提问于2017-05-30得票数 1

1回答

Spark数据帧将数据丢失到s3

、、

我有一个spark数据帧，其中包含经过清理的数据。我在数据框中总共有512条记录。在写入S3之前，我将重新分区到单个文件，因为我的记录总数很少，并且我希望保持较少的分区数量。 val t =tripAttributesDF.repartition(1) t.write.mode("overwrite").format("csv") .save("s3://<Bucket>/Trips_Detail_Table/csv/valid_trips_csv") DataFrame计数正确显示如下scala> t.count() res3

浏览 0提问于2017-11-12得票数 0

1回答

用于EMR自动化的AWS数据管道与lambda

、、、

下面是我在AWS中应用程序的步骤。数据将每周在单独的35个S3文件夹中加载。完成每35个文件夹中的数据加载后，将创建35个EMR集群。每个EMR集群都将有火花-scala脚本来并行运行。作业完成后，所有群集都将终止。我怎样才能做到这一点？据我所查，有两种选择。在AWS lambda事件和lambda上调用S3函数将创建EMR集群并进行火花提交。我读过关于AWS数据管道的文章。 AWS Data pipeline在我的场景中会有帮助吗？此外，我有星火-scala脚本，我一直在运行齐柏林飞艇。如果需要的话，我可以用它创建jar并在数据管道中

浏览 0提问于2018-01-19得票数 1

1回答

使用星星之火从胶目录中读取，而不使用动态框架(胶水上下文)

、、、、

由于我们的方案是常量的，所以我们使用的是spark.read()，这比在s3中存储数据时从选项创建动态框架要快得多所以现在想要使用动态框架从胶水目录中读取数据需要很多时间，所以想要使用spark Dataframe.read.format(“).option(”url“，"").option("dtable"，schema.table名称).load() 需要输入什么格式和url选项以及任何其他内容？？

浏览 1提问于2021-04-12得票数 3

1回答

Spark如何创建从S3读取的对象的分区？

、、、、

Spark如何创建从S3读取的对象的分区？我在S3中有一个118MB大小的对象。我将对象读入胶水动态框架。转换为spark数据帧并应用了一些转换。然后将数据写回S3。输出文件夹由大小为51MB和39MB的两个对象组成。Spark如何决定从S3读取的数据的分区方案？代码如下： df = glueContext.create_dynamic_frame.from_catalog(database = glueDatabase, table_name = glueTable).toDF() df = df.filter('student.year != "2005"&#

浏览 1提问于2020-06-26得票数 1

1回答

ElasticSearch迁移数据

、、、

我想将数据从Amazon AWS ElasticSearch版本2.3迁移到5.1，并在S3中创建了一个数据快照，现在我如何将这些转储文件从S3复制到ES 5.1？

浏览 2提问于2017-02-07得票数 0

1回答

Scala方式针对不同环境选择配置

我的应用程序需要从资源目录或s3读取配置文件。对于本地开发，我需要从本地资源目录中读取它。因此，在构建项目时，我没有将配置文件config.properties放入我的应用程序jar文件中。在这种情况下，它应该从S3读取配置。当我想到要这样做的时候，scala很像我用java做的事情。 val stream : InputStream = getClass.getResourceAsStream("/config.properties") if (stream != null) { val lines = scala.io.Source.fromInputStream(

浏览 8提问于2018-02-22得票数 0

回答已采纳