在spark数据帧上实现pythonic统计函数

文章/答案/技术大牛

发布

1回答

pandas、apache-spark、pyspark、statistical-test

我在spark数据帧中有非常大的数据集，它们分布在节点上。我可以使用spark库pyspark.sql.functions进行简单的统计，如mean、stdev、skewness、kurtosis等。但为了做到这一点，我必须将spark数据帧转换为pandas，这意味着将数据强制到主节点中，如下所示： import scipy.stats as stats pan

浏览 30提问于2020-09-13得票数 0

1回答

在数据帧上使用聚合操作比使用spark.sql()直接实现SQL聚合有好处吗？

apache-spark、pyspark

我见过来自数据仓库和SQL背景的人正在使用SQL实现聚合和其他转换逻辑(where spark is the sparkSession object) 直接通过配置单元表或在将数据帧注册为但是，如果我们看到，我们还有其他选择，比如windows函数或其他选项，它们可以直接在dataframes.Or上实现，甚至我们可以将函数注册为UDF，并可以在dataframe<em

浏览 1提问于2019-05-05得票数 0

1回答

如何从PySpark中一个DataFrames的每一行生成大量的DataFrame集合，然后将其缩减？

sql、dataframe、apache-spark、pyspark

不幸的是，我不能分享我的实际代码或数据，因为它是专有的，但如果问题对读者来说不是很清楚，我可以生成一个MWE。我正在处理一个包含大约5000万行的数据帧，每行都包含一个大型XML文档。从每个XML文档中，我提取了一个与出现次数和标记之间的层次关系相关的统计数据列表(没有什么比无文档记录的XML格式更让人愉快的了)。我可以在数据帧中表达这些统计信息，并且可以使用GROUP BY/SUM和DISTINCT等标准操作在多个文档中

浏览 21提问于2021-10-26得票数 0

1回答

将numpy数组转换为spark数据帧以输入到MySQL (pyspark)

python、numpy、apache-spark、pyspark、spark-dataframe

使用JDBC驱动程序，我能够将存储在MySQL中的数据表拉入spark dataframe。然后，我在数据帧上运行来自pyspark mllib的统计相关函数(经过一些转换)，并能够获得一个相关矩阵(类型为numpy.ndarray)，如下所示：我如何利用这个矩阵并创建一个像下面这样的数据帧，这样我就可以将其输入回MySQL：

浏览 2提问于2017-08-10得票数 0

1回答

在不更改Spark属性的情况下执行连接时未广播数据帧的示例

scala、apache-spark、apache-spark-sql

如何在本地spark-shell中创建尚未计算统计数据的表？到目前为止，我在spark.read.csv、Seq(("SOF")).toDF("name")和spark.range(1000)上尝试了df df.join(df, Seq("name")).explain(true) 下面的所有数据帧都导致了broadcast join 如何制作一个不广播的“小”DataFra

浏览 8提问于2019-09-17得票数 1

1回答

Datalab BigQuery数据到Dataproc Hadoop字数

apache-spark、hadoop、google-bigquery、google-cloud-dataproc、google-cloud-datalab

我目前在Google BigQuery上有一些reddit数据，我想对选择的subreddits上的所有评论做一个单词计数。查询大约是90GiB，因此不可能直接加载到DataLab中并转换为数据帧。有人建议我使用DataProc中的Hadoop或Spark作业来创建字数统计，并设置一个连接器将BigQuery数据导入到DataProc中，以便DataProc可以进行字数统计。

浏览 33提问于2021-10-25得票数 1

1回答

Pyspark是spark.lapply的替代品？

python、apache-spark、pyspark、sparkr

我有一个计算密集型的python函数，在for循环中反复调用(每次迭代都是独立的，即令人尴尬的并行)。我正在寻找spark.lapply (来自SparkR)的一种功能，以利用星火集群。

浏览 1提问于2019-08-05得票数 0

1回答

在SparkR中使用R函数

r、apache-spark

我想使用R进行大数据的统计分析。为此，我想使用Spark作为大数据服务器。并使用SparkR作为桥接工具。我的需求是使用聚合函数和R的其他函数来生成报表，如表中每个类别的计数。在SparkR中，textFile函数返回RDD，我想将其与R函数一起使用。R函数可用于数据帧或R的其他数据类型。是否有任何代码样本或开发人员指南可用，请建议。

浏览 1提问于2015-03-12得票数 2

2回答

如何根据匹配年份加上前两年从另一个数据帧中提取多行

python、pandas、dataframe、merge

我正在使用体育统计数据，并希望提取过去3年的统计数据。如果我有一个包含player和year的数据帧，我如何从另一个具有匹配player、同年和前2年的数据帧中提取行？有没有一种pythonic式的方法来使用merge或filter来实现这一点？

浏览 31提问于2019-04-16得票数 1

1回答

如何从pyspark中删除数据帧来管理内存？

python、apache-spark、memory、pyspark

我列出我的数据帧以丢弃未使用的数据帧。首先，我使用下面的函数列出了我在其中一篇文章中找到的数据帧 return [如何在pyspark上删除数据帧以获得一些内存？或者你还有其他的建议吗？谢谢。

浏览 0提问于2018-10-31得票数 4

回答已采纳

1回答

Spark/Koalas实现pandas resample('D')方法

python、apache-spark、pyspark、databricks、spark-koalas

我有一个Spark数据帧需要填充。数据帧大小较大(>1亿行)。我可以使用pandas实现我想要的效果，如下所示。.reset_index(['Column1', 'Column2', 'Column3'], drop=True) \在使用考拉尝试有没有更好的方法来替代spark原生函数中的ffill复制逻辑呢？

浏览 5提问于2020-08-04得票数 0

2回答

Spark似乎认为一个特定的广播变量很大

apache-spark

我正尝试在两个表上进行广播连接。较小的表的大小将根据参数的不同而不同，但较大的表的大小接近2TB。我注意到的是，如果我不将spark.sql.autoBroadcastJoinThreshold设置为10G，其中一些操作将执行SortMergeJoin而不是广播加入。我在较小的表上做了一些操作，因此混洗大小显示在Spark History Server上，内存中的大小似乎是150MB，远远不到10G。此外，如果我在较小的表上强制广播联

浏览 3提问于2018-10-16得票数 0

3回答

如何在hive或impala中计算表统计数据，以加快Spark中的查询？

apache-spark、hive、apache-spark-sql、impala

在蜂巢里我能做到：在黑帕拉：我的spark应用程序(从蜂窝表中读取)是否也从预先计算的统计数据中受益？他们都在保存蜂巢亚稳态的统计数据吗？我在Cloudera 5.5.4上使用spark 1.6.1 注意:在参数的S

浏览 6提问于2016-09-22得票数 11

1回答

将用户定义的函数应用于PySpark数据帧并返回字典

pandas、pyspark、spark-dataframe

假设我有一个名为df的熊猫数据帧1 2 13 4 5d = dict() x = do_something (row)我正在尝试使用Spark重新实现这个函数。, value2): # business logic

浏览 4提问于2017-08-25得票数 0

3回答

考虑增加spark.rpc.message.maxSize或对较大的值使用广播变量

dataframe、pyspark、message、rpc、max-size

我正在集群上进行计算，最后，当我使用df.describe().show()请求Spark数据帧的汇总统计数据时，我得到了一个错误：在我的Spark配置中，我已经尝试增加了前面提到的参数： spark = (SparkS

浏览 7提问于2019-01-31得票数 14

2回答

函数将R类型转换为星点类型。

r、apache-spark、dplyr、sparklyr、livy

我有一个R数据框架，我想把它转换成远程集群上的星火数据帧。我已经决定将我的数据框架写到一个中间的csv文件中，然后使用sparklyr::spark_read_csv()读取该文件。我这样做是因为数据帧太大，不能直接使用sparklyr::sdf_copy_to()发送(我认为这是由于Livy中的限制)。我想通过编写一个函数来编程地将数据帧中使用的R列类型传递到新的spark<em

浏览 0提问于2019-03-28得票数 0

回答已采纳

4回答

如何在对PySpark DataFrame进行分组后应用describe函数？

python、apache-spark、pyspark、pyspark-sql

我想找到将describe函数应用于分组的DataFrame的最简洁的方法(这个问题也可以扩展为将任何DF函数应用于分组的DF)df = spark.createDataFrame( [(1, 1.0), (1, 2.0), (2, 3.0), (2, 5.0), (2

浏览 99提问于2019-07-18得票数 6

1回答

AZure DataBricks -大型CSV文件字段验证

python、azure、csv、databricks、data-cleaning

这些文件存储在blob中。我想在每个字段上执行一些清理替换，并运行正则表达式，以过滤掉任何其他不需要的字符，最后修剪以删除尾随空格。df.category=='Housing').select(df[1],f.trim(f.regexp_replace(udf_clean(df[1]),'(\d+)',''))).show() 我找不到的是如何在整个数据

浏览 0提问于2020-01-18得票数 1

1回答

使用ffmpeg pyspark和hadoop逐帧处理视频

hadoop、video、pyspark、hdfs

我想使用spark和hadoop并行处理mp4视频帧。我不想在处理之前提取所有帧。我正在寻找的是一种顺序读取帧数据w.r.t的方法。视频时间，然后在帧到达使用yarn的hadoop集群上的spark executors时馈送帧。mp4视频文件可以在本地文件系统上，也可以在HDFS上。我可以使用ffmpeg创建一个管道，然后读取原始帧字节(例如，i

浏览 11提问于2019-07-13得票数 2

1回答

PySpark-如何使用Pyspark计算每个字段的最小、最大值？

python-3.x、apache-spark、pyspark、apache-spark-sql、pyspark-sql

我正在尝试找出sql语句产生的每个字段的最小值和最大值，并将其写入csv文件。我试着在下面的时尚中得到结果。你能帮帮我吗。我已经用python编写了代码，但现在正在尝试将其转换为pyspark，以便直接在hadoop集群中运行。from pyspark.sql.functions import max, min, mean, stddevsc =SparkContext()hive_context = HiveContext(sc) #ban

浏览 2提问于2018-11-20得票数 1

点击加载更多