追加到拼图文件的EMR Spark步骤正在覆盖拼图文件

、、、

在使用Python 3.6的Amazon EMR集群(1个主服务器，2个节点)上运行Spark 2.4.2 我正在读取亚马逊s3中的对象，以拼图格式压缩它们，并将它们添加(附加)到现有的拼图数据存储中。当我在pyspark shell中运行我的代码时，我能够读取/压缩对象并将新的拼图文件添加到现有的拼图文件中，并且，当我对拼图<

浏览 17提问于2019-07-10得票数 1

回答已采纳

1回答

S3DistCp可以合并.snappy.paruqet文件吗？

、、

S3DistCp是否可以将多个由火花应用程序存储为.snappy.parquet输出的文件合并为一个文件，并使结果文件可由配置单元读取？

浏览 2提问于2017-06-02得票数 2

2回答

实例类型默认分区差异

、、、

我的理解是，spark会根据文件的大小，或者如果它是许多拼图文件的并集，部分的数量，来选择分区的“默认”数量。然而，在读入一组大的拼图文件时，我发现具有单个d2.2xlarge的EMR集群的默认分区数是~1200。然而，在2个r3.8xlarge的集群中，我得到了大约4700的默认分区。<em

浏览 1提问于2017-08-08得票数 0

1回答

如何获得文件/文件创建的火花df.write？

、、、

我需要捕获作为df.write.parquet("s3://bkt/folder", mode="append")命令的结果创建的拼图文件。我在AWS EMR pyspark上运行这个。我可以使用awswrangler和wr.s3.to_parquet()来实现这一点，但这并不真正适合我的EMR spark用例。有这样的功能吗？我想要s3://

浏览 16提问于2021-05-05得票数 0

2回答

我们使用的是带有Spark 2.3.0和S3Guard的cdh5.13。在EMR 5.x / 6.x上使用相同的资源运行相同的作业后，我们的性能下降了5-20倍。根据的默认提交者(从5.20开始)对S3A不好。我们测试了EMR-5.15.1，并获得了与Hadoop上相同的结果。at java.net.URLClassLoader.findClass(URLClassLoader.java:382) 我<em

浏览 0提问于2020-11-25得票数 0

2回答

用Apache Spark* Notebook覆盖Bluemix对象存储中的拼图文件*

、、、、

我正在运行Spark Notebook，将DataFrame保存为Bluemix对象存储中的拼图文件。df = sqlContext.sql("SELECT * FROM table") df.write.parquet("swift://my-container.sp

浏览 0提问于2016-05-12得票数 0

2回答

如何使用Spark* Streaming更新拼图文件？*

、、

我正在使用spark streaming来创建实时数据管道。我正在从Kafka获取实时数据，并使用Spark处理这些数据。因为这个表需要频

浏览 18提问于2019-11-03得票数 0

1回答

如何使用Amazon EMR集群上的Spark连接到红移数据

、

我有一个正在运行的Amazon EMR集群。/aws/redshift/jdbc/RedshiftJDBC41-1.2.7.1003.jar现在，我想使用此jar连接到我的spark-shell我是这么做的-val sqlContext = new SQLContext(sc) val df

浏览 4提问于2018-09-12得票数 4

1回答

写入parquet而不是CSV时，数据链路写入失败

、、、

) { "Effect": "

浏览 9提问于2021-07-07得票数 1

回答已采纳

2回答

使用s3-dist-cp合并拼接文件

、、

我想知道是否可以使用s3-dist-cp工具来合并拼图文件(快速压缩)。我尝试了"--groupBy“和"--targetSize”选项，它确实将小文件合并为更大的文件。但我无法在Spark或AWS Athena中阅读它们。任何帮助都是非常感谢的。

浏览 5提问于2017-12-16得票数 4

1回答

根据地块文件创建配置单元表并加载数据

、、、、

我发现很难将镶木镶嵌文件加载到hive表中。我正在使用Amazon EMR集群和spark进行数据处理。但是我需要读取输出的拼图文件来验证我的转换。我有如下模式的拼图文件： |-- ATTR_YEAR: long (nullable = true) | |-cdAccState: string (nullab

浏览 0提问于2017-09-11得票数 1

2回答

是有一个大的拼图文件好，还是有许多小的拼图文件更好？

、、

据我所知，hdfs会将文件分成类似64mb的块。我们有流式传输的数据，我们可以将它们存储到大型文件或中型文件中。列式文件存储的最佳大小是多少？如果我可以将文件存储到最小列为64mb的位置，是否会比拥有1 1gb的文件节省任何计算时间？

浏览 1提问于2017-03-21得票数 25

回答已采纳

1回答

用户代理解析器(ua- parser )减慢EMR上的Spark

、、、、

我在我的UDF中使用来解析用户代理信息。我注意到，与没有解析器的作业相比，这些作业非常慢。Parser.default奇怪的是，当我提交作业作为EMR步骤时，它很慢，但当我在Zeppelin或Spark shell中运行相同的代码时，它工作得很好。我将数据写入拼图</e

浏览 0提问于2019-12-03得票数 0

1回答

spark如何获取读取拼花面板文件的任务数？

、、

我在s3存储桶上的相同目录下有271个拼图小文件(9KB/文件)。所以，我试图理解spark在读取这些文件时是如何获得任务数量的？集群是aws EMR 5.29，我的sparkConf有--num-executors 2和--executor-cores 2 当我运行spark.read.parquet("s3://bucket/path").rdd.get

浏览 4提问于2020-05-01得票数 0

回答已采纳

1回答

如何使用Spark* Core API读取拼图文件？*

、、

如何使用Spark Core API读取拼图文件？我知道使用Spark SQL有一些读取拼图文件的方法。但是我们不能在我们的项目中使用Spark SQL。我正在使用Java来实现Spark Job。

浏览 2提问于2015-09-02得票数 6

1回答

pyspark with Hive，append将添加到现有分区并复制数据

、、

我目前正在使用adwords api，我必须处理1天、7天和30天的数据。因此，spark任务是基本的，加载csv并将其写入带有分区的parquet中： df.write .format("parquet") .partitionBy，7天和30天将在某个时间点(通过1天前)处理完已经处理过的数据，因此在我的分区table/customer_id/date/

浏览 18提问于2019-09-18得票数 2

回答已采纳

2回答

无法使用pyarrow从目录中读取拼图文件

、

我使用pyarrow(0.12.1)从s3读取拼图对象s3 = s3fs.S3FileSystem()当我将一个文件<

浏览 22提问于2019-11-09得票数 1

2回答

覆盖拼图文件在spark中抛出异常

、、、

我正在尝试从hdfs位置读取拼图文件，做一些转换并覆盖相同位置的文件。我必须在相同的位置覆盖文件，因为我必须多次运行相同的代码。下面是我写的代码 val df = spark.read.option("header", "true").option("inferSchema", "true").parq

浏览 0提问于2018-09-04得票数 1

1回答

任务的自动化哪个是envolve的？

、、、

我正在创建数十个拼图拼图，垫文件和提交这些下载网站每天，为什么？-为了反向链接的目的。在提交之前，我需要完成这些文件，其中一个文件夹包含：.exe文件--使用拼图拼图创建者拼图创建器创建的拼图拼图--解决图像--使用PADGen创建的拼图.xml文件的jpg(来自第二个链接)

浏览 2提问于2011-08-24得票数 0

1回答

使用R sparklyr将多个Spark镶木文件加载到Spark表中？

、、

我正在尝试使用R sparklyr将多个拼图文件加载到一个Spark表中。附加的代码显示了我是如何做到这一点的。spark_load_data <- function(db_conn, test_period) library(DBI) overwrite <- TRUE"pcidata" pq_path <- paste0("s3://<path&

浏览 0提问于2019-08-17得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

S3DistCp可以合并.snappy.paruqet文件吗？

实例类型默认分区差异

如何获得文件/文件创建的火花df.write？

EMR6.x上S3A的S3Guard和拼图魔术提交程序

用Apache Spark* Notebook覆盖Bluemix对象存储中的拼图文件*

如何使用Spark* Streaming更新拼图文件？*

如何使用Amazon EMR集群上的Spark连接到红移数据

写入parquet而不是CSV时，数据链路写入失败

使用s3-dist-cp合并拼接文件

根据地块文件创建配置单元表并加载数据

是有一个大的拼图文件好，还是有许多小的拼图文件更好？

用户代理解析器(ua- parser )减慢EMR上的Spark

spark如何获取读取拼花面板文件的任务数？

如何使用Spark* Core API读取拼图文件？*

pyspark with Hive，append将添加到现有分区并复制数据

无法使用pyarrow从目录中读取拼图文件

覆盖拼图文件在spark中抛出异常

任务的自动化哪个是envolve的？

使用R sparklyr将多个Spark镶木文件加载到Spark表中？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐