如何使用Spark on EMR在配置单元元存储中注册S3拼图文件

Spark on EMR是指在Amazon EMR（Elastic MapReduce）上使用Spark进行大数据处理和分析的技术。在配置单元元存储中注册S3拼图文件是指将S3存储桶中的拼图文件注册到Spark on EMR的配置单元元存储中，以便在Spark作业中使用。

下面是完善且全面的答案：

Spark on EMR是一种在Amazon EMR上使用Spark进行大数据处理和分析的技术。Spark是一个快速、通用的集群计算系统，可以处理大规模数据集并支持多种编程语言。EMR是Amazon提供的一种托管的Hadoop框架，可以轻松地在云中运行大数据应用程序。

配置单元元存储是EMR集群中的一种存储选项，它提供了高性能和低延迟的存储能力。S3拼图文件是指存储在Amazon S3（Simple Storage Service）中的拼图文件，可以是图像、视频或其他多媒体文件。

要在配置单元元存储中注册S3拼图文件，可以按照以下步骤进行操作：

创建一个EMR集群：在AWS管理控制台上创建一个EMR集群，选择Spark作为集群的计算引擎。
配置存储选项：在创建集群时，选择配置单元元存储作为存储选项，并设置相应的存储容量和性能。
上传拼图文件到S3：将需要注册的拼图文件上传到Amazon S3存储桶中。确保文件在S3中具有适当的权限设置，以便EMR集群可以访问。
注册拼图文件：在EMR集群中的Spark应用程序中，使用相应的代码将S3拼图文件注册到配置单元元存储中。以下是一个示例代码片段：

import org.apache.spark.SparkContext
import org.apache.spark.SparkConf

val conf = new SparkConf().setAppName("SparkOnEMR")
val sc = new SparkContext(conf)

val s3ImagePath = "s3://your-bucket/your-image.jpg"
sc.addFile(s3ImagePath)

val registeredFiles = sc.getRegisteredFiles
registeredFiles.foreach(println)

在上述代码中，首先创建一个SparkContext对象，然后使用addFile方法将S3拼图文件注册到Spark上下文中。最后，使用getRegisteredFiles方法获取已注册的文件列表，并进行打印输出。

通过以上步骤，你就可以在Spark on EMR的配置单元元存储中成功注册S3拼图文件了。

推荐的腾讯云相关产品：腾讯云EMR（https://cloud.tencent.com/product/emr）是腾讯云提供的大数据处理和分析服务，类似于Amazon EMR。腾讯云对象存储COS（https://cloud.tencent.com/product/cos）是一种可扩展的云存储服务，类似于Amazon S3。你可以使用腾讯云EMR和COS来实现类似的功能。

追加到拼图文件的EMR Spark步骤正在覆盖拼图文件

python、apache-spark、amazon-emr、parquet

在使用Python 3.6的Amazon EMR集群(1个主服务器，2个节点)上运行Spark 2.4.2 我正在读取亚马逊s3中的对象，以拼图格式压缩它们，并将它们添加(附加)到现有的拼图数据存储中。当我在pyspark shell中运行我的代码时，我能够读取/压缩对象并将新的拼图文件添加到现有的拼图文件中，并且，当我对拼图数据运行查询时，它显示所有数据都在拼图文件夹中。但是，当我在EMR集群上的某个步骤中运行代码时，现有的拼图文件会被新文件覆盖。相同的查询将显示只有新数据在那里，而包含地块数据的s3文件夹只有新数据。以下是该步骤的关键代码： spark = SparkSessio

浏览 17提问于2019-07-10得票数 1

回答已采纳

1回答

任何AWS S3 API都可以将文件从Amazon上的HDFS移动到spark应用程序中的S3

amazon-s3、amazon-ec2、hdfs、amazon-emr

我们有一个要求在星火作业中复制文件(运行在由EMR派生的Hadoop集群上)到相应的S3桶中。到目前为止，我们正在使用Hadoop FileSystem API (FileUtil.copy)在两个不同的文件系统之间复制或移动文件。 val config = Spark.sparkContext.hadoopConfiguration FileUtil.copy(sourceFileSystem, sourceFile, destinationFileSystem, targetLocation, true, config) 此方法按要求工作，但效率不高。它流一个给定的文件，执行时间取

浏览 3提问于2019-12-04得票数 0

3回答

与s3的Emrfs文件同步不起作用

amazon-s3、pyspark、amazon-emr

在Amazon EMR集群上运行spark作业后，我直接从s3中删除了输出文件，并再次尝试重新运行该作业。在尝试使用sqlContext.write在s3上写入拼图文件格式时，我收到以下错误： 'bucket/folder' present in the metadata but not s3 at com.amazon.ws.emr.hadoop.fs.consistency.ConsistencyCheckerS3FileSystem.getFileStatus(ConsistencyCheckerS3FileSystem.java:455) 我试着跑步 emrfs syn

浏览 1提问于2016-10-03得票数 14

回答已采纳

1回答

为什么Spark应用程序将包含多个csv文件的DataFrame保存到S3存储桶

amazon-web-services、apache-spark、amazon-s3、amazon-emr

嗨，我是Spark和Amazon EMR集群的新手。我试图编写一个可以在Amazon EMR集群上运行的演示spark应用程序。当代码在Zeppelin notebook上运行时，它会返回输出，我认为输出会保存为Amazon EMR集群上的单个文件，如下所示： %pyspark spark.conf.set('spark.sql.repl.eagerEval.enabled', True) if type(df.c) == type(upper(df.c)) == type(df.c.isNull()): df_new = df.withColumn('up

浏览 31提问于2021-04-16得票数 0

回答已采纳

2回答

S3上的Hive多用户和Spark

amazon-web-services、amazon-s3、emr

这是我的场景我是spark和aws的狂热爱好者，我渴望了解更多关于这项技术的知识。案例1:我的spark应用程序在EMR集群上运行，spark应用程序从s3上的配置单元读取表，并将其写入s3上的配置单元表。在本例中，S3存储桶属于同一个用户usera，因此我将fs.s3.awsAccessKeyId和fs.s3.awsSecretAccessKey添加到一个配置文件中。在我的示例中，我将其添加到hdfs-site.xml中。用户A具有访问存储桶的正确权限，因此没有问题。案例2:我正在读取s3上的2个配置子表。table1和table2。table1属于user1，table2属于user

浏览 0提问于2017-03-28得票数 1

2回答

电子病历上的用例HBase

hadoop、amazon-web-services、hbase、storage、emr

我读过关于AWS的文档，但是有一点还不清楚。 S3是EMR集群的主要存储区吗？或者数据是在EC2中，而S3只是一个副本？在医生里： HBase on Amazon提供了将您的HBase数据直接备份到(亚马逊S3)的能力运行在Amazon上的Hadoop集群使用EC2实例作为主节点和从节点的虚拟Linux服务器，使用 S3作为输入的大容量存储. “提供启动新集群并使用以前的备份的数据填充它的的能力” 我的用例:使用HBASE存储TB数据。通过启动emr集群，每月只更新我的表三到两次。表存储在S3上。

浏览 1提问于2015-06-12得票数 0

回答已采纳

1回答

星火Kryo反序列化EMR生成的文件在本地失败。

amazon-web-services、scala、apache-spark、amazon-emr、kryo

在将EMR版本升级到6.2.0 (我们以前使用5.0 beta - ish)和Spark 3.0.1时，我们注意到我们无法在本地读取从EMR集群中编写的Kryo文件(这在以前显然是可能的)。当试图读取这样的文件时，引发的异常大致如下： com.esotericsoftware.kryo.KryoException: java.lang.ClassCastException: scala.Tuple3 cannot be cast to scala.Tuple2 我们使用spark 3.0.1和Kryo 4.0.2 (捆绑在一起)并使用Kryo::readClassAndObject读取Kryo

浏览 12提问于2021-05-10得票数 1

回答已采纳

1回答

查询Spark上的Hive以获得最高性能的正确方法是什么？

apache-spark、hive、pyspark、hadoop-yarn、parquet

新手来了。我在Hive中有一个相当大的表(约130M条记录，180列)，我正尝试使用Spark将其打包为拼图文件。我使用默认的EMR集群配置，6* r3.xlarge实例来提交我用Python编写的spark应用程序。然后我在YARN上以集群模式运行它，通常会给驱动程序分配少量内存(几gb)，剩下的内存给执行器。下面是我这样做的代码： from pyspark import SparkContext from pyspark.sql import HiveContext sc = SparkContext(appName="ParquetTest") hiveCtx = Hi

浏览 0提问于2017-03-21得票数 2

3回答

如何从提交的spark应用程序步骤中获取AWS EMR集群id和步骤id

amazon-web-services、scala、apache-spark、amazon-emr

场景：我在AWS EMR中运行Spark Scala作业。现在，我的工作转储了该应用程序独有的一些元数据。现在为了转储，我在位置"s3://bucket/key/<APPLICATION_ID>“中写入，其中ApplicationId为val APPLICATION_ID: String = getSparkSession.sparkContext.getConf.getAppId 现在基本上有没有一种像"s3://bucket/key/<emr_cluster_id>_<emr_step_id>".这样在s3位置写东西的方法呢？如

浏览 0提问于2020-09-13得票数 2

1回答

IllegalArgumentException :创建火花会话

apache-spark、amazon-s3、pyspark、amazon-emr

我正在创建火花会话使用下面的代码片段在python笔记本上的AWS EMR集群。 spark = SparkSession.builder \ .config("spark.jars.packages","org.apache.hadoop:hadoop-aws:2.7.0") \ .getOrCreate() 然后从S3桶中读取数据，如下所示 df_songs = spark.read.option("recursiveFileLookup","true

浏览 10提问于2022-10-10得票数 0

回答已采纳

1回答

在Amazon上持久化S3

json、amazon-s3、apache-spark

我在Amazon上有一个包含JSON对象的大文本文件。我计划使用亚马逊EMR上的Spark来处理这些数据。以下是我的问题：如何将包含JSON对象的文本文件加载到Spark中？在关闭EMR集群之后，是否有可能在S3上保留此数据的内部RDD表示？如果我能够持久化RDD表示，是否有可能在下次需要分析相同数据时直接以RDD格式加载数据？

浏览 1提问于2014-07-03得票数 4

1回答

GCS桶HMAC随机403禁止

apache-spark、amazon-s3、google-cloud-platform、pyspark、google-cloud-storage

我正在阅读谷歌云存储桶中的拼花文件。一切都很好，直到我试图从不同的桶-3文件中获取数据。在读取第三个文件时，我得到：由: com.amazonaws.services.s3.model.AmazonS3Exception：引起(服务: S3；状态代码: 403；错误代码: 403禁止；请求ID: null；S3扩展请求ID: null)，S3扩展请求ID: null 如果我改变了正在读取的文件的顺序(例如，第三个文件是第一个文件)，所有的操作都很好. 我的火花设置： spark_session.sparkContext._jsc.hadoopConfiguration().

浏览 4提问于2022-11-11得票数 1

2回答

如何在不使用火花的情况下从AWS内部读取S3桶中的文本文件

scala、amazon-s3、amazon-emr

我需要打开一个普通的文本文件位于一个S3桶(不是一个地板或CSV文件)从一个电子病历集群。我可以直接使用spark.read.parquet("s3://mybucket/some_parq_file")打开CSV或拼板文件但是我只需要使用、java.io.File或scala.io.Source从EMR集群读取一个常规文本文件。当我尝试的时候得到一个java.io.FileNotFoundException import scala.io.Source val hdr = "s3://mybucket/txtfile.txt" for (line <-

浏览 3提问于2019-11-14得票数 0

回答已采纳

0回答

如何使用Spark on EMR在配置单元元存储中注册S3拼图文件

apache-spark、hive、elastic-map-reduce、apache-spark-1.6

我使用的是Amazon Elastic Map Reduce 4.7.1、Hadoop 2.7.2、Hive 1.0.0和Spark 1.6.1。用例:我有一个用于处理数据的Spark集群。这些数据作为拼图文件存储在S3中。我希望工具能够使用在Hive Metastore中注册的名称来查询数据(例如，查找foo表而不是parquet.`s3://bucket/key/prefix/foo/parquet`风格的操作)。我还希望这些数据在Hive Metastore (一个单独的RDS实例)的生命周期中持续存在，即使我拆除EMR集群并启动一个连接到相同Metastore的新集群也是如此。问题

浏览 10提问于2016-07-21得票数 6

回答已采纳

2回答

电子病历Spark无法将数据帧保存到S3

scala、amazon-web-services、hadoop、apache-spark、amazon-s3

我正在使用RunJobFlow命令启动一个Spark EMR集群。此命令将JobFlowRole设置为具有策略AmazonElasticMapReduceforEC2Role和AmazonRedshiftReadOnlyAccess的IAM角色。第一个策略包含允许所有s3权限的操作。当EC2实例启动时，它们承担此IAM角色，并通过STS生成临时凭据。我做的第一件事是使用com.databricks.spark.redshift格式将表从我的Redshift集群读取到Spark Dataframe中，并使用与我对EMR JobFlowRole所做的相同的IAM角色从redshift中卸载数据

浏览 3提问于2017-02-21得票数 3

1回答

在s3桶的csv文件中导出表格数据

hive、amazon-emr

我正在尝试将Hive f1的数据导出到s3://mubucket/exported.csv的csv文件中。我在Amazon中创建了一个集群，并使用emr-4.0.0。Hadoop发行版：Amazon 2.6.0和Hive 1.0.0。如何将数据从Hive表导出到s3桶的csv文件？

浏览 2提问于2015-08-12得票数 0

1回答

电火花在AWS电子病历中的应用

amazon-s3、pyspark、amazon-emr

我对PySpark和AWS都是新手。我得到了一个小项目，在这个项目中，我需要每小时清除大量的数据文件，并在此基础上构建聚合数据集。这些数据文件存储在S3上，我可以利用Spark中的一些基本功能(如filter和map)来派生聚合数据。为了节省出口成本，在执行了一些CBA分析之后，我决定创建一个EMR集群并进行pypark调用。这个概念使用由S3桶中创建的文件触发的Lambda函数很好。我正在将输出文件写回S3。但我无法理解我创建的3节点EMR集群的需求及其对我的使用。我如何利用Hadoop文件系统在这里和在节点上可用的所有存储？如何(如果可能的话)查看集群中从节点/核心节点的使用情

浏览 4提问于2020-01-14得票数 0

1回答

根据地块文件创建配置单元表并加载数据

apache-spark、hive、schema、external、parquet

我发现很难将镶木镶嵌文件加载到hive表中。我正在使用Amazon EMR集群和spark进行数据处理。但是我需要读取输出的拼图文件来验证我的转换。我有如下模式的拼图文件： root |-- ATTR_YEAR: long (nullable = true) |-- afil: struct (nullable = true) | |-- clm: struct (nullable = true) | | |-- amb: struct (nullable = true) | | | |-- L: string (nullable = true)

浏览 0提问于2017-09-11得票数 1

2回答

使用Step函数运行AWS EMR集群

amazon-web-services、amazon-emr、state-machine、aws-step-functions

我对AWS Step函数和AWS Lambda函数非常陌生，我真的需要一些帮助来让EMR集群通过Step函数运行。下面的代码显示了我当前状态机结构的示例 { "Comment": "This is a test for running the structure of the CustomCreate job.", "StartAt": "PreStep", "States": { "PreStep": { "Comment": "Check

浏览 3提问于2019-10-14得票数 1

2回答

实例类型默认分区差异

amazon-web-services、apache-spark、amazon-s3、amazon-ec2

我的理解是，spark会根据文件的大小，或者如果它是许多拼图文件的并集，部分的数量，来选择分区的“默认”数量。然而，在读入一组大的拼图文件时，我发现具有单个d2.2xlarge的EMR集群的默认分区数是~1200。然而，在2个r3.8xlarge的集群中，我得到了大约4700的默认分区。 Spark使用什么指标来确定默认分区？ EMR 5.5.0

浏览 1提问于2017-08-08得票数 0