在pyspark中，当使用df.write.partitionBy(..).save时，如何partitionBy某一列的值的一部分？_在Pandas中，当in达到某一值时的列长度_如何在整型列在pyspark中具有不正确的值时返回null - 腾讯云开发者社区

、、

我想在我的Spark Dataframe中partitionBy date而不是time，我该怎么做呢？假设我有一个dataframe，第一列是日期时间，比如'2019-06-25 12:00:00'，'2019-06-25 11:00:00‘等等。我知道如何按时间划分它，但我不知道如何按日期划分它。06-24 02:03:10| 2||2019-03-12 08:01:34| 3| +-------

浏览 103提问于2019-06-25得票数 2

回答已采纳

1回答

Spark Job将数据帧写入已分区的增量表

、、、、

文件中的总记录为179619219条。它被划分为A列(8419个唯一值)、年份( 10年)和月份。"month").format("delta").mode("append").save(path) (“A”，"year"，df.write.partitionBy 作业在写入步骤中停滞，并在运行5-6小时后中止

浏览 4提问于2021-11-10得票数 1

2回答

Pyspark partitionBy:如何对数据进行分区，然后选择列

、、

2], 'col2': [3, 4], 'col3': [5, 6]}我想按'col1‘对数据进行分区，但我不希望'col1’变量出现在最终数据中。这个是可能的吗？df.write.partitionBy("

浏览 3提问于2020-05-13得票数 0

2回答

写入Parquet文件并将其保存为分区表时的保存模式

、、、、

当我在没有指定保存模式的情况下将数据帧写入现有位置时，它会返回一个错误。df.write.partitionBy("column").option("path", <EXISTING PATH>).format("parquet").save 但是，当我只使用saveAsTable选项执行相同的命令时，如果表不存在，Spark似乎会覆盖数据。df.write.partiti

浏览 3提问于2019-11-26得票数 0

1回答

将Spark dataframe写入为带分区的CSV

、、、

我正在尝试将spark中的数据帧写入到HDFS位置，并且我希望如果添加partitionBy符号，Spark将创建以下形式的分区文件夹(类似于以Parquet格式编写)(df.write .mode('overwrite') .format("com.databricks.spark.csv"

浏览 2提问于2016-05-29得票数 11

回答已采纳

1回答

如何有效地划分Delta表？

在delta表中存储我的数据时，寻找有效的数据分区策略。column6 =有246个不

浏览 4提问于2022-07-23得票数 3

回答已采纳

2回答

将当前时间戳添加到Spark dataframe，但按当前日期将其分区，而不将其添加到dataframe中

、、、、

org.apache.spark.sql.functions.current_timestamp 但是，如果我们想通过从时间戳派生它，而不将它添加到dataframe中，我想要达到的目标是这样的： df.write.partitionBy(date("time_stamp")).parquet("/path/to/file")

浏览 35提问于2022-04-18得票数 0

1回答

读入分区的拼花"my_file.parquet/col1=NOW“字符串值，在read()上替换为<current_time>

、、、、

在wsl Debian 10上使用pyspark 3.1.1df = spark.createDataFrame(data=[("NOW",1), ("TEST", 2)], schema = ["col1", "i

浏览 2提问于2021-04-18得票数 1

回答已采纳

1回答

星星之火在S3上创建分区

、、、、

"DS1".中。因为我也希望句点在s3文件中，所以我正在从句点列中创建另一个列"datasetPeriod“。 dataframe .write .partitionBy在datasetPeriod上为分区添加新列

浏览 0提问于2020-06-10得票数 2

1回答

PartitionBy删除PySpark中的特殊字符

、

我有一个包含3列(col1字符串、col2整数、col3字符串)的数据帧(df)，如下所示，但是有上百万条记录：Tes#t 456 mnopqrstTest's 789 hdskfdss 当我尝试用下面的语句使用PySpark来写数据时，Col1中的特殊字符丢失了，并且在hdfs中创建目录时被ascii字符替换。有没有办法在<

浏览 0提问于2017-09-08得票数 0

1回答

DataFrame写PartitionBy* -不能参数化多列*

、、、

创建一个接受TableName和分区列作为输入的通用代码。但是，在尝试将dataframe作为分区表编写时面临的问题。partAttr='product_category_id,product_id' df.write.partitionBy('"'+'","'.join(pattr)+'"').saveAsTab

浏览 4提问于2018-01-03得票数 0

1回答

PySpark:在写入增量表时拆分数据的有效策略

、、

我想知道是否有一个有效的策略来写我的星火数据在三角洲表在Datalake。根据经验，我将数据分割成一个列，该列有70到300个不同的值。我用来查看在"partitionBy“中使用的候选列的‘技巧’如下所示。我将数据转换为临时表，并查看基数。df.write.partitionBy("column_candidate") .forma

浏览 2提问于2022-07-15得票数 0

回答已采纳

2回答

在星火库上列出特定单元表的所有分区，并添加一个分区

、

如何向hive表中添加新的分区？有什么api的蜂巢亚稳态，我可以使用火花？有没有办法获得映射dataframe row => partition_path的内部单元函数？根据我在HDFS上看到的内容编辑，当SaveMode.Overwrite spark将发出表定义，即CREATE TABLE my_table ....当我编写df.write.partitionBy(...).mode(Overwrite)

浏览 2提问于2016-10-26得票数 6

回答已采纳

3回答

编写partitionBy后创建多个文件

、

我过去经常使用df.repartition(1200).write.parquet(...)，它创建了修复参数中指定的1200个文件。我现在使用的是paritionBy，即df.repartition(1200).write.partitionBy("mykey").parquet(...)。“我的火花”版本( for my，2.4.0)似乎暗示这个特性是后来添加的。还有其他方法来实现这一目标吗？我想我可以重新划分到1200/len(un

浏览 7提问于2021-12-03得票数 0

1回答

将星火DataFrame数据划分为不同的文件

、、、、

我从一个DataFrame文件中获得了下面的s3输入，并需要将数据转换成以下所需的输出。我在Scala中使用SparkVersion1.5.1，但可以用Python更改为Spark。欢迎任何建议。file.csv bbbbbddddd 下面是我尝试过的现有cols.tail: _*).count().take(100).f

浏览 0提问于2016-11-11得票数 4

回答已采纳

2回答

基于列值对数据进行分区

、、、、

嗨，我有如下的数据源102 27-10-2015 facebook102 27-10-2015 instagram105 30-10-2015 bing例如在这里

浏览 0提问于2015-11-03得票数 1

1回答

PySpark -从dataframe创建多个json文件

、、

我有以下格式的数据，这是从Hive获得的数据格式：1388534400, GOOG, 501388534400, MSFT, 551388620800, FB, 61其中日期是当天午夜的时代，我们有大约10年前的数据(800million我的目标是最终得到一堆JSON文件，每个股票一个，看起来如下：{ '1

浏览 0提问于2018-12-25得票数 2

1回答

在按键进行分区后，是否将一个键的所有数据保存在一个分区中？

这可能是这个的副本。根据答案，密钥的所有数据都驻留在一个分区中。但是，这个来自星火邮件组的回答却有所不同。如果您使用的是Spark2.0中可用的水桶，这是不必要的。对于分区，它仍然是必要的，因为我们不认为每个分区都是小<

浏览 4提问于2017-03-13得票数 1

2回答

在S3中将每个分区数据写入单个文件中

、

我们有这样的用例，我们希望按列值对数据帧进行分区，然后将每个分区写到单个文件中。我做了以下事情来做同样的事情： df.rdd.saveAsTextFile("s3://d

浏览 1提问于2018-03-14得票数 1

2回答

优化用于使用组的查询的Delta表

、、、

当涉及到优化我的增量表时，我学到了一些东西。df.write.partitionBy("column_1").format("delta").mode("overwrite").save("path")

浏览 5提问于2022-08-18得票数 3

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云