手工选择镶木地板分区与在pyspark中过滤它们

pyspark、parquet、hadoop-partitioning

这可能是一个愚蠢的问题，但手动指定拼图文件中的分区列与加载并过滤它们有什么不同吗？例如:我有一个由DATE分区的拼图文件。spark.read.parquet("s3://bucket/path/file.parquet")\ .filter(col('DATE')>'2020-10-15') 或者，我可以使用S3文件系统仅加载spark数据帧中所需的分区date

浏览 11提问于2020-10-26得票数 0

回答已采纳

1回答

如何获取python和pyspark拼图文件的创建日期？

python、pyspark、google-colaboratory

他们给了我镶木地板文件，我将它们存储在我的Google Drive中以供测试。我正在使用谷歌Colab与Python和Pyspark。正确的命令是什么？谢谢

浏览 1提问于2021-01-20得票数 0

2回答

Spark镶嵌读取性能

apache-spark、parquet

我有一个月的数据存储在HDFS中。31个文件夹，每个文件夹以yyyy-mm-dd格式按日期表示。

浏览 41提问于2020-01-31得票数 1

2回答

Spark中的快速镶木地板行数

apache-spark、parquet

我在spark-shell里试过了Spark运行了两个阶段，显示了DAG中的各种聚合步骤。问题是:当我运行count时，Spark是否已经在使用行数字段了？是否有其他API可以使用这些字段？出于某种原因，依赖这些字段是不是一个坏主意？

浏览 1提问于2016-11-16得票数 13

5回答

如何控制输出文件的大小？

apache-spark、parquet

在spark中，控制输出文件大小的最佳方法是什么。例如，在log4j中，我们可以指定最大文件大小，超过此大小后，文件将旋转。我正在寻找类似的解决方案镶木地板文件。如果我想将文件限制为64mb，那么一种选择是对数据进行重新分区并写入临时位置。然后使用临时位置中的文件大小将文件合并在一起。但是很难获得正确的文件大小。

浏览 1提问于2016-08-28得票数 25

1回答

我有一堆镶木地板数据，它们的结构类似于col1=1/col2=2/col3=3/part-00000-33b48309-0442-4e86-870f-f3070268107f-c000.snappy.parquet我已经阅读了我能找到的东西，并且似乎很清楚文件名的每个部分的含义-分区中每个文件的part-00000增量，c000与输出配置的其他部分有关，其余的是防止并行写入期间发生冲突的UUID。(更大的动机是我需要随着时间的推移将数据添加到现有存储

浏览 1提问于2018-12-04得票数 2

5回答

蜂窝镶木地板快速压缩不起作用

hadoop、hive、hiveql、parquet、snappy

我正在使用表属性作为TBLPROPERTIES('PARQUET.COMPRESSION'='SNAPPY')创建一个表框架set hive.exec.dynamic.partition.mode=nonstrict;set hive.plan.serialization.format=javaXML;SET mapred.output.compre

浏览 0提问于2018-01-23得票数 1

2回答

在S3中以增量方式将数据添加到拼花面板表中

amazon-s3、apache-spark、apache-spark-sql、parquet

有没有办法在不写一个全新的副本的情况下将数据添加到现有的镶嵌板表格中，特别是当它存储在S3中时？我知道我可以为更新创建单独的表，在Spark中，我可以在查询时形成Spark中相应DataFrames的联合，但我对此的可扩展性持怀疑态度。如果需要的话，我可以使用Spark之外的其他东西。

浏览 1提问于2015-05-13得票数 3

1回答

PySpark正在写入大型单个拼图文件，而不是分区文件

apache-spark、pyspark、parquet

对于我的大多数文件，当我读入带分隔符的文件并将它们写出到snappy parquet时，spark会像我预期的那样执行，并创建多个分区的snappy parquet文件。也就是说，我有一些用管道分隔的大型.out文件(25GB+)，当我读入它们时： inputFile = spark.read.load(s3PathIn, format='csv', sep=fileSeparatortrue', multiline='true') 然后将结果输出到S3： inputFile.write.

浏览 17提问于2021-07-19得票数 0

1回答

是否在运行CREATE TABLE语句时限制钻取生成的文件量？

apache-drill

在使用apache drill的create table语句时，是否可以限制用于创建/表示表的文件数量？目前有几组镶木地板文件存储在HDFS中，并通过钻孔创建表将它们转换为TSV，例如。有没有一种方法可以限制在创建这个TSV版本的表时使用的文件数量？在文档(这里是或这里是)中找不到任何这样的信息，尽管PARTITION BY子句似乎很接近() (但并不是所有的表都有很好的可分区字段)。

浏览 1提问于2018-09-20得票数 1

1回答

使用pyspark从Hadoop中删除文件(查询)

python、python-3.x、python-2.7、hadoop、pyspark

我使用Hadoop来存储我的数据-对于一些数据我使用分区，对于一些数据我不使用分区。我使用pyspark DataFrame类以parquet格式保存数据，如下所示： df = sql_context.read.parquet('/some_path') df.write.mode("append").parquet(parquet_path) 我想写一个删除旧数据的脚本，使用类似的方式(我需要在数据框上使用过滤来查询这个旧数据)与pyspark<

浏览 2提问于2019-04-14得票数 2

回答已采纳

1回答

如何在拼图中输出多个s3文件

hadoop、parquet

编写镶木地板数据可以用下面这样的方法来完成。但是，如果我试图写入多个文件，并且希望输出到多个s3文件，以便读取单个列不会读取所有s3数据，该如何做到这一点呢？) writer.write(record); 例如，如果我想按列值进行分区，以便将favorite_color为红色的所有数据放在一个文件中，而将favorite_color为蓝色的数据放在另一个文件

浏览 16提问于2017-02-04得票数 14

1回答

dask read_parquet内存不足

dask

我正在尝试读取一个很大的(内存不能容纳)镶木地板数据集，然后从中提取样本。数据集的每个分区都可以完美地存储在内存中。数据集在磁盘上大约有20 in的数据，分为104个分区，每个分区大约200Mb。我的假设是，Dask将加载它能处理的尽可能多的分区，从它们中采样，从内存中删除它们，然后继续加载下一个。或者类似的东西。相反，从执行图(104个并行加载操作，在每个样本

浏览 66提问于2019-09-25得票数 0

1回答

Spark scala谓词下推和分区在处理和存储方面的区别是什么

scala、apache-spark

如果可能的话，我不能完全理解它们，你能在这两个方面都举一个例子吗？

浏览 8提问于2020-05-07得票数 0

7回答

Python:将pandas数据帧保存到拼图文件

python-3.x、hdfs、parquet

可以将pandas数据框直接保存到拼图文件中吗？如果没有，建议的流程是什么？目标是能够将拼图文件发送给另一个团队，他们可以使用scala代码读取/打开该文件。谢谢!

浏览 0提问于2016-12-10得票数 27

1回答

雪花不扣除拼花中的按列分区

snowflake-cloud-data-platform、parquet

推断模式函数在拼图文件上执行得非常好，并返回正确的数据类型。但是，当对拼图文件进行分区并将其存储在S3中时，推断模式的功能与pyspark数据帧不同。当地块文件存储在没有分区的S3中时，模式是完全派生出来的。然而，如果拼图文件存储在分区中-如上图所示。"：“20302”} 在本例中，snowflake infer Schema仅提供三列；但是，读取<em

浏览 0提问于2021-10-21得票数 5

1回答

<星火Dataframe>.write.parquet(<directory>)和<火花Dataframe>.write.parquet(<file name>.parquet)的区别

pyspark、parquet

我意识到，在运行spark时，最好有至少与内核一样多的地板文件(分区)，以便尽可能充分地利用spark。但是，制作一个大的拼花文件和几个较小的拼花文件来存储数据有什么好处/缺点？作为一个测试，我使用这个数据集： import pyspark当我ls -lh文件时，我看到: test.parquet文件是

浏览 7提问于2022-06-03得票数 0

回答已采纳

1回答

Magento中的特殊滤波器

magento

对于Magento网络商店，我希望te创建一个过滤器。此筛选器如下所示：在使用下拉列表进行过滤后，它只显示下拉列表2中与产品名称相关的产品。有人知道如何创建这个过滤器吗？所以当我在floor和plint之间建立关系时，plint必须显示在floor的产品页面上。这很容易设置。但当我到品类页面的皮林我必须快速过滤到皮林，所以第一个客户可以设置地板的品牌，

浏览 0提问于2013-07-02得票数 0

回答已采纳

2回答

如何更改pysark中DataFrame的hdfs块大小

hadoop、apache-spark、pyspark、hdfs

这似乎与 ####################from pyspark.sql

浏览 0提问于2018-03-14得票数 0

1回答

分组拼图压缩性能与平面数据

apache-spark、compression、bigdata、parquet

[12, 52]|| id2| [51, 53, 34]| +-------+----------------+ 关于哪种方法可以在文件系统上获得更好的存储

浏览 5提问于2019-07-02得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何获取python和pyspark拼图文件的创建日期？

Spark镶嵌读取性能

Spark中的快速镶木地板行数

如何控制输出文件的大小？

拼图文件名的哪些部分很重要？

蜂窝镶木地板快速压缩不起作用

在S3中以增量方式将数据添加到拼花面板表中

PySpark正在写入大型单个拼图文件，而不是分区文件

是否在运行CREATE TABLE语句时限制钻取生成的文件量？

使用pyspark从Hadoop中删除文件(查询)

如何在拼图中输出多个s3文件

dask read_parquet内存不足

Spark scala谓词下推和分区在处理和存储方面的区别是什么

Python:将pandas数据帧保存到拼图文件

雪花不扣除拼花中的按列分区

<星火Dataframe>.write.parquet(<directory>)和<火花Dataframe>.write.parquet(<file name>.parquet)的区别

Magento中的特殊滤波器

如何更改pysark中DataFrame的hdfs块大小

分组拼图压缩性能与平面数据

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐