如何实际限制或削减PySpark DataFrame

文章/答案/技术大牛

发布

1回答

不幸的是，由于其他限制，我无法处理所有70k更改的行。我想要做的是剪切更改后的行帧，取第一行或随机10k行。然而，当我这样做时，我得到了不可预测的结果。帧上接下来的3个操作是选择不同的行。本质上，我的join().filter()生成了很多行，我想从changed_rows中取出前N行或随机N行，然后丢弃剩下的行。它们将在下一次运行时得到处理。

浏览 18提问于2021-06-29得票数 0

3回答

如何将数据格式的浮点类型列分隔为不超过1小数点(在Pyspark中)？

、、、

我正在使用一个dataframe，它有一个类型为Float的列“Col”。列的值有太多的小数(例如: 1.00000000000111)。如何将列限制为只保存一个小数(例如: 1.0)的值？

浏览 0提问于2018-03-16得票数 0

回答已采纳

2回答

将数据保存到HDFS的格式是什么？

、、、

创建DataFrame后，我可以将其保存为avro、csv或拼板格式。在dataframe或rdd中是否有其他格式可用于在Hadoop中保存数据？

浏览 2提问于2017-12-21得票数 1

1回答

用笔记本将数据从Azure Synapse数据库加载到DataFrame中

、

我试图从Azure Synapse DW中加载数据到一个数据文件中，如图像所示。AttributeError: 'DataFrameReader' object has no attribute 'sqlanalytics' 对我做错了什么有什么想法吗？

浏览 2提问于2021-08-17得票数 1

回答已采纳

1回答

火花放电窗口函数partitionBy限制为1000行

我正在尝试使用Pyspark函数，但是我的partitionBy似乎仅限于前1000行。('*'), row_number().over(window).alias('row_number')).where(col('row_number') <= 100))object_typesDF实际上包含大约30

浏览 1提问于2019-04-12得票数 0

回答已采纳

1回答

如何在火花和按数据分组中添加最小和最大函数的新列？

、、、、

PySpark Dataframe: adobeDF向dataframe添加新列：from pyspark.sqladobeDF.withColumn('start_date', f.col('Date')).withColumn('end_date', f.col('Date')) 我试图找出如何在我

浏览 0提问于2020-02-03得票数 0

回答已采纳

1回答

将数据文件写入json时限制文件大小

、

我在用pyspark v3。我使用下面的代码将dataframe写入一个json文件，如何将输出文件的大小限制为100 of？

浏览 1提问于2022-03-24得票数 0

1回答

只应在驱动程序上创建和访问SparkContext。

、

import pyspark.pandas as pd dataframe = pd.DataFrame([300,600,900,1200,1500,1800,2100,2400,2700,3000,3300,3600], columns = ['value']) rsl

浏览 6提问于2022-07-25得票数 0

1回答

USING TIMESTAMP 1000; 使用pyspark，指定要使用的时间戳。目前，我正在保存一个数据框值，如下所示： dataframe.write.mode("append").format("org.apache.spark.sql.cassandra").options(**load_options ).save() 我查看了文档并四处查看，但没有找到任何关于这方面的信息，无论是否可能(以及如何做)。有没有办法在pyspark中实现这个选项？

浏览 12提问于2019-10-02得票数 2

1回答

在火花中，spark.executor.pyspark.memory配置选项的含义是什么？

、

文件说明如下：除非另有规定，否则在每个执行器中分配给PySpark的内存量，在MiB中分配。如果设置了，执行器的PySpark内存将被限制在此数量之内。如果没有设置，Spark将不会限制Python的内存使用，这取决于应用程序避免超过与其他非JVM进程共享的开销内存空间。当PySpark在YARN或Kubernetes中运行时，此内存将添加到执行器资源请求中。注意:此特性依赖于Python的resource模块；因此，行为和限制是继承的。例如，Windows不支持资

浏览 5提问于2021-07-04得票数 6

回答已采纳

1回答

Apache Spark如何支持不同语言的API

、

如何在编程层面上做到这一点？有人能解释一下这样的系统的高层架构吗？

浏览 0提问于2016-03-13得票数 3

2回答

在pySpark中按条件分割数据

、、、

我有一个dataframe值为false、true或null。我想创建两个dataframes，1)只使用True列名，2)只使用假列名。我是pySpark新手，我想知道如何在不硬编码任何列名(我有几百列)的情况下做到这一点，我知道我不能遍历行，因为这样做会违背pySpark的目的。每一列将只有一个boolen -一个T或F，因此每列多个空。我尝试使用.filter，但它只过滤了一列，它实际上打印了其他所有列，而不是F列。w/ True Column Name

浏览 3提问于2020-05-07得票数 1

回答已采纳

3回答

将SCALA === (三等号)转换为用于火花列的Python

、、、

{Column, DataFrame, Dataset} searchTermsInputTable: DataFrame使用Dataset，它不受Pyspark===支持，用于列，该列也不支持我如何克服这一问题并将其转换为Python？

浏览 3提问于2022-03-18得票数 0

1回答

用PySpark计算形状值

、、、、

我正在寻找一种方法来减少在我的大型数据集上计算SHAP值所需的计算时间(大约180米行，6个特性)，我遇到了这个，讨论了如何在SHAP上使用PySpark。我是PySpark新手，我正在努力弄清楚如何使用本文中提供的代码片段来运行我的代码。我不太明白PySpark代码是如何工作的。

浏览 6提问于2022-07-28得票数 2

1回答

pyspark.sql.functions -计数以考虑空值：

、

我试图让pyspark.sql.functions.count()函数或pyspark.sql.functions.count_distinct()函数在计算列中不同元素的数量时考虑null值。让我给出以下可重复的示例，为此我需要创建一个数据集：df = spark.createDataFrame([(1,"arun","engineering",+-------------+ | 4| 4| 4|

浏览 12提问于2022-06-07得票数 0

1回答

在ml算法中使用dataframe

、、、

我了解到，为了使用ml.clustering Kmeans算法(实际上任何ml的algos?)使用dataframe，我需要将我的数据数据以特定的形状：(id，vector[])或类似的东西。如何应用正确的转换将正则表(存储在df中)转换为所需的结构？这是我的df：from pyspark import SparkContext sc = SparkContext(conf=conf)

浏览 2提问于2016-11-28得票数 3

1回答

Apache火花无法识别UTF-16 csv文件中的列

、、、

问题：为什么下面代码的最后一行出现了以下错误，如何解决问题？AttributeError: DataFrame对象没有属性“OrderID” 列数：150语言等：Python、Apache、Azure码样例df = spark.read.option("encoding","UTF-16LE").option("multiline

浏览 3提问于2022-06-18得票数 0

回答已采纳

1回答

spark sql中的DESCRIBE with LIMIT

、、、、

= [ (2, 0, 1, 2, 4)df = spark.createDataFrame(valsdata_typedogs biginthorses bigint实际上/pyspark/sql/session.py", line 603, in sql

浏览 19提问于2018-02-22得票数 2

回答已采纳

1回答

星火DataFrame如何区分不同的VectorUDT对象？

、、、、

我正在尝试理解DataFrame列类型。当然，DataFrame不是一个物化的对象，它只是一组Spark的指令，将来要转换成代码。但我认为，这个类型列表代表了在执行操作时JVM中可能出现的对象类型。import pysparkimport pyspark.sql.functions as Fd()root

浏览 1提问于2016-07-31得票数 7

回答已采纳

2回答