spark sql无法查询S3中的拼图分区_spark分区拼图文件中的Impala表_Spark在S3中创建额外的分区列 - 腾讯云开发者社区

apache-spark、spark-streaming、parquet

我正在使用spark streaming来创建实时数据管道。我正在从Kafka获取实时数据，并使用Spark处理这些数据。但是当我用来自S3的新数据更新S3上现有的拼图文件时，它的性能就不好了。因为我必须从S3中获取现有的分区拼图文件，并用来自Kafka的新记录替换旧记录，然后在S3上覆盖完整的分区拼图文件。

浏览 18提问于2019-11-03得票数 0

2回答

Avro Spark ->镶嵌->

apache-spark、apache-spark-sql、avro、parquet

我有一个java程序，它使用AvroParquetWriter来创建拼图文件。我可以把这些文件放到亚马逊( S3 )网站上。完成此操作后，我想创建一个外部表，以使用Spark SQL查询拼图记录。这个是可能的吗？我尝试过的所有实验都表明，Spark在查询时无法读取AvroParquetWriter创建的文件。

浏览 22提问于2019-05-08得票数 0

回答已采纳

2回答

spark sql无法查询S3中的拼图分区

amazon-s3、apache-spark-sql、parquet

我在AWS s3中有100个parquet_dir/*.snappy.parket文件作为分区。文件大小为6 6GB。我无法查询这些分区文件。当读取在HDFS中写入的相同分区文件时，相同的查询成功。val DF = spark.read.parquet("s3a:/parquet_dir").cache() DF.registerTempT

浏览 135提问于2020-04-21得票数 0

2回答

无法使用pyarrow从目录中读取拼图文件

python-3.x、pyarrow

我使用pyarrow(0.12.1)从s3读取拼图对象s3 = s3fs.S3FileSystem()尝试创建ParquetDataset时出现以下错误： "

浏览 22提问于2019-11-09得票数 1

1回答

查询整个配置单元外部表中未分区的列

apache-spark、hive、apache-spark-sql、hiveql、dremio

我有hive外部表(以拼图格式存储的s3文件)，用spark创建，大小约为30 GB，具有数百个分区。但是，我需要查询非分区列(比如SUPPLIER_ID)上的数据，以查看完整的事务历史记录，而不是特定于某个期间或日期(分区列)。在不确定Hive表上的哪个分区数据属于哪个分区的情况下，如何确保这种查询模式？

浏览 3提问于2021-06-09得票数 0

1回答

s3 parquet写入-分区太多，写入缓慢

scala、apache-spark、amazon-s3、amazon-emr、parquet

我有我的scala spark作业要作为拼图文件写入到s3中。到目前为止，它有60亿条记录，而且还会每天都在增长。根据用例，我们的api会根据id查询拼图。因此，为了使查询结果更快，我在id上编写了带有分区的拼图。然而，我们有1330360个唯一的is，所以这是在写的同时创建了1330360个拼图文件，所以写的

浏览 2提问于2018-05-06得票数 1

2回答

Spark正在忽略配置单元表格的按键设置

apache-spark

我正在S3上处理一个1TB大小的数据集。数据在拼图文件中。执行以下代码后，在每个分区中创建了许多文件，但没有正确的数字(6)。import org.apache.spark.sql.SaveModespark.sqlContext.sql("use db")dates.foreach { date =>

浏览 1提问于2018-08-20得票数 0

2回答

如何优化Spark向S3写入大量数据

scala、apache-spark、amazon-s3、amazon-emr

基本上，我使用了大约1TB的拼图数据-分散在S3中的数万个文件中-添加了一些列，并按数据的日期属性之一将其分区输出-同样，以S3格式的拼图。=5120 --conf spark.executor.memoryOverhead=5120 --conf spark.driver.maxResultSize=2g --conf spark.

浏览 0提问于2020-01-07得票数 5

1回答

手工选择镶木地板分区与在pyspark中过滤它们

pyspark、parquet、hadoop-partitioning

这可能是一个愚蠢的问题，但手动指定拼图文件中的分区列与加载并过滤它们有什么不同吗？例如:我有一个由DATE分区的拼图文件。如果我想要最后10天，我通常可以这样做：(假设今天是2020-10-26) df=spark.read.parquet("s3://bucket/path/file.parquet")\ .filter(col('DATE&#

浏览 11提问于2020-10-26得票数 0

回答已采纳

2回答

如何在spark中启用分区修剪

apache-spark、apache-spark-sql、spark-dataframe、pruning

我正在读取拼图数据，并且我看到它列出了驱动程序端的所有目录Listing s3://xxxx/defloc/warehouse/products_parquet_151/month=2014-12 on driver 我在where子句中指定了我尝

浏览 1提问于2016-10-06得票数 10

3回答

Spark是否支持对拼图文件进行分区修剪

apache-spark、amazon-s3、hive、parquet

如果我使用以下Spark命令：sqlContext.setConf("spark.sql.parquet.filterPushdown", "true") val df = sqlContext.sql("select * from tag_data whe

浏览 2提问于2016-05-12得票数 19

1回答

显示Spark+Parquet程序中读取的字节数

apache-spark、query-optimization、parquet

我正试图通过利用分区和下推来优化一些Spark查询和一个Parquet模式。我的理解是，这些技术允许跳过大部分的拼图文件。有没有办法显示Spark读取的字节数与Parquet文件的总大小之间的关系？另外，读操作的数量是多少？(我使用的是S3，因此我希望最小化由于S3应用程序接口调用的开销而导致的读取操作<em

浏览 0提问于2019-03-14得票数 0

5回答

需要更少的拼花面板文件

apache-spark、dataframe、rdd、partition、bigdata

我正在进行以下过程然而，在每个分区下，有太多的拼图文件，而且每个文件的大小都很小，这会使我下面的步骤加载所有的拼图文件变得非常慢。有没有更好的方法，在每个分区下，创建更少的拼图文件，并增加单个拼图文件的大小？

浏览 6提问于2016-08-31得票数 2

1回答

DynamoDB与S3平面文件？

amazon-s3、amazon-dynamodb、parquet、bigdata、nosql

我正在存储数am的点击流类型的用户事件数据。它需要按日期进行索引或分区，以便可以合理地快速查询较窄的日期范围。我希望能够对此运行聚合作业和查询。我希望在Amazon EMR或类似的东西中使用Spark。一种选择是按day+hour分区的S3平面文件，如下所示：s3:&#

浏览 0提问于2016-05-24得票数 3

1回答

最佳文件大小和拼花块大小

apache-spark、amazon-s3、parquet

我每天有大约100 GB的数据，我用Spark写到S3。书写格式是拼花。编写此运行Spark2.3的应用程序我们计划在Spark2.4中迁移整个数据并重写到S3。最初，我们在编写S3时没有决定文件大小和块大小。现在我们要重写所有内容，我们希

浏览 0提问于2019-05-23得票数 9

2回答

关于使用parquet处理时间序列数据的问题

apache-spark、time-series、parquet

目前，我正在为每个传感器编写CSV文件，并按日期进行分区，因此我的文件系统层次结构如下所示：我的目标是能够对这些数据执行SQL我现在正在尝试使用Spark和Parquet文件来执行这些查询，但我在这个主题上的研究中有一些问题无法回答，即：client_id/sen

浏览 1提问于2019-07-28得票数 2

1回答

在Spark中通过合并减少分区

apache-spark、apache-spark-sql

我运行Spark查询并使用它们执行数据转换，然后将最终的结果集(在一系列转换步骤之后)存储到S3。我最近注意到，我的工作之一是在编写S3时创建大量分区文件，并且需要很长时间才能完成(实际上是失败的)。因此，我想知道是否有任何方法在SQL中执行类似COALESCE的函数来在写入S3之前减少分区的数量？我知道SQL等效于重新<em

浏览 3提问于2021-03-30得票数 0

1回答

针对缓存表的Spark* SQL分区修剪*

caching、apache-spark、partition、pruning、hivecontext

在apache spark中是否为缓存的TempTables启用分区修剪？如果是，我该如何配置它？val parquet = hc.read.parquet("/path_to_table/tablename") parquet.reg

浏览 21提问于2017-02-10得票数 0

1回答

如何加载没有分区名的分区拼图数据集(在目录名中)？

apache-spark、pyspark、apache-spark-sql

我有一个拼图格式的文件列表 -- s3:\\my-bucket\files\14\09\12\file.pq# 14如果我将绝对路径传递给我的spark上下文，它可以读取文件而不会出现任何问题 spark.read.parquet('s3:\\my-bucket\files\14\09\12\file.pq') 如果我通过了spark</em

浏览 17提问于2021-09-14得票数 1

回答已采纳

5回答

spark读取S3中的分区数据部分在冰川中

apache-spark、amazon-s3、partitioning、amazon-glacier

我在S3的拼图中有一个按日期(dt)分区的数据集，其中最旧的日期存储在AWS Glacier中，以节省一些钱。例如，我们有..。2017-08-24"val X = spark.read.parquet(path).where(col("dt").; Status

浏览 4提问于2017-08-21得票数 7

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何使用Spark Streaming更新拼图文件？

Avro Spark ->镶嵌->

spark sql无法查询S3中的拼图分区

无法使用pyarrow从目录中读取拼图文件

查询整个配置单元外部表中未分区的列

s3 parquet写入-分区太多，写入缓慢

Spark正在忽略配置单元表格的按键设置

如何优化Spark向S3写入大量数据

手工选择镶木地板分区与在pyspark中过滤它们

如何在spark中启用分区修剪

Spark是否支持对拼图文件进行分区修剪

显示Spark+Parquet程序中读取的字节数

需要更少的拼花面板文件

DynamoDB与S3平面文件？

最佳文件大小和拼花块大小

关于使用parquet处理时间序列数据的问题

在Spark中通过合并减少分区

针对缓存表的Spark* SQL分区修剪*

如何加载没有分区名的分区拼图数据集(在目录名中)？

spark读取S3中的分区数据部分在冰川中

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐