使用spark sql计算数据帧中列的频率

文章/答案/技术大牛

发布

2回答

用于计算Spark中频率(值的等级)的UDF

、、、

我想要计算数据帧Spark中列值的频率，即计算出现频率最高的values.How的等级。我们在Spark中为此定义数据帧UDF了吗？

浏览 7提问于2017-07-31得票数 0

1回答

在spark/scala中寻找计算数据帧频率分布的方法

、

我想使用spark和scala计算数据帧的频率分布(返回每列中最常见的元素以及它出现的次数)。我尝试过使用DataFrameStatFunctions库，但在我只过滤了数字类型列的数据帧之后，我无法应用该库中的任何函数。创建UDF的最佳方式是什么？

浏览 0提问于2016-07-02得票数 2

1回答

、、、

我正在尝试获取Spark dataframe列中不同值的频率，类似于Python Pandas中的"value_counts“。我的意思是，表列中出现频率最高的值(如秩1值、秩2、秩3等)。在预期输出中，1在列a中出现了9次，因此它具有最高的频率。我正在使用Spark SQL，但它

浏览 1提问于2017-07-21得票数 0

2回答

优化PySpark与pandas DataFrames之间的转换

、、、、

我有一个13M行的pyspark数据帧，我想把它转换成pandas数据帧。然后，将根据其他参数以不同的频率(例如1秒、1分钟、10分钟)对数据帧进行重新采样以进行进一步分析。从文献[，]中，我发现使用以下任何一行都可以加快pyspark到pandas数据帧之间的转换： spark.conf.set("spark

浏览 11提问于2021-11-19得票数 0

1回答

如何将带有键的值映射到Spark* DataFrame中的列*

、、、

我正在用Scala在Spark 2.3中做一些功能工程。我在Spark DataFrame的一列中有IP地址，如下所示现在，我希望将这些频率中的每个频率映射到原始数据帧。在那里我会 ip | freq

浏览 0提问于2018-04-03得票数 0

1回答

AWS胶-不知道如何将NullType保存为红移

、、、

下面是AWS Glue的简单脚本。我有一个带有空单元格的文本文件和一个接受空值的表。当我运行胶水作业时，它会失败，例外情况是“不知道如何将NullType保存为REDSHIFT”。如何处理此问题，或者通过Glue在RedShift中不支持空插入？我没有任何空字符就重新生成了我的文件，我也有同样的问题。我添加了这行代码。推断了一些不存在的NullType字段。我的字段中只有大约1/2有值。

浏览 4提问于2017-11-28得票数 5

1回答

Spark Scala -如何迭代dataframe中的行，并将计算值添加为数据框的新列

、、、

我有一个包含两列"date“和"value”的dataframe，如何在dataframe中添加两个新列"value_mean“和"value_sd”，其中"value_mean“是过去10天(包括”date“中指定的当天)的平均值，"value_sd”是过去10天内"value“的标准差？

浏览 0提问于2016-02-12得票数 4

3回答

取消持久化(py)spark中的所有数据帧

、、、、

我是一个spark应用程序，有几个点我想要持久化当前状态。这通常是在一个大的步骤之后，或者缓存一个我想要多次使用的状态之后。似乎当我第二次对我的数据帧调用cache时，一个新的副本被缓存到内存中。在我的应用程序中，这会导致在扩展时出现内存问题。尽管在我当前的测试中，给定的数据帧最大大约为100MB，但中间结果<

浏览 9提问于2016-04-28得票数 39

回答已采纳

1回答

如何合并或连接spark中列号不相等的数据帧

、、、、

我正在做一个使用spark的项目。在某些阶段，我需要在单个数据帧中合并或连接3个数据帧。这些数据帧来自spark sql表，我使用了联合函数，它已经合并了两个表中具有相同编号的列，但我也需要合并不相等的列值。我现在很困惑，有没有办法在pyspark中合并或连

浏览 13提问于2016-09-22得票数 0

2回答

如何查找频率表键列是否包含列表中的所有值

、、

我有一个数据帧，并且我正在对一列进行频率表计数。我想要搜索表中的key列是否包含此列表ls = ['Agree', 'Disagree', 'Neutral', 'N/A']中的所有值，如果列key缺少列表中的某些值，我想将缺少的值添加到该列中</e

浏览 12提问于2019-11-16得票数 2

回答已采纳

1回答

R中的Countif函数(excel)

、、、

我有一个数据集"a“，它的列"id”大约有23,000行，这在这个数据帧中是唯一的。我想要计算这些唯一值在另外两个数据集"b“和"c”中的出现频率。"b”中的第45列。这段代码适用于b中的计数，但当我尝试使用相同的</

浏览 1提问于2016-04-29得票数 0

3回答

查看Spark* Dataframe列的内容*

、、、

我使用的是Spark 1.3.1。我正在尝试查看Python中Spark dataframe列的值。有了Spark dataframe，我可以使用df.collect()来查看数据帧的内容，但在我看来，Spark dataframe列还没有这样的方法。例如，数据帧df包含一个名为'

浏览 1提问于2015-06-30得票数 43

回答已采纳

1回答

通过在不同线程中执行多个查询来触发数据帧缓存

、

我想知道spark中的数据帧缓存是否是线程安全的。在我们的一个用例中，我从一个hive-table创建一个dataframe，然后通过不同的线程在同一个dataframe上运行多个SQL。由于我们的存储和计算是解耦的，而且由于某些原因读取非常慢，我在考虑将数据帧缓存到内存中，并将缓存的

浏览 17提问于2020-03-10得票数 0

1回答

在databricks中使用sparklyr查找日期列的最大值

、、

我只是尝试使用databricks中的sparklyr导入的数据来查找日期列的最大值： data %>% dplyr::select(date_variable) %>% max() 这将返回一个错误max()和min()一定是最常用的函数之一吗？我在这里做错了什么？

浏览 7提问于2020-09-26得票数 1

2回答

获取数组列的大小/长度

、、

我是Scala编程的新手，这是我的问题:如何计算每行的字符串数？我的数据帧由ArrayString类型的单个列组成。friendsDF: org.apache.spark.sql.DataFrame = [friends: array<string>]

浏览 2提问于2017-09-07得票数 45

回答已采纳

2回答

DataFrame错误：“重载方法值select with alternatives”

、、

我尝试通过从数据帧中选择小时+分钟/60和其他列来创建新的数据帧，如下所示： (col: String,cols: String*)org.apache.spark.sql.Dat

浏览 0提问于2017-02-12得票数 2

回答已采纳

1回答

正在将pyspark数据帧写入文本文件

、

我有一个从sql server中的一个表创建的pyspark数据框架，我对它做了一些转换，现在我要将它转换为动态数据框架，以便能够将其保存为s3存储桶中的文本文件。当我将数据帧写入文本文件时，我将向该文件添加另一个头文件。这是我的动态数据框，将保存为文件： 2021-03-21 | MT.0000| 234.543

浏览 0提问于2021-04-23得票数 0

1回答

星火sql百分位数在浮点列上

、、、

根据，百分位数命令应该给出每个数字列的确切百分位数。至少当我的输入是由浮点数组成时--这不是真的。from pyspark.

浏览 0提问于2019-07-21得票数 2

1回答

从PySpark运行大量配置单元查询

、、、

我想要执行大量的配置单元查询，并将结果存储在数据帧中。我有一个非常大的数据集，结构如下：| visid_high，它使用每一行作为二级查询的输入：for session in sessions.collect()[:100]: query = "

浏览 5提问于2018-07-23得票数 0

1回答

统一Spark中具有不同列数的两个表

、

如何联合包含不同列数的两个数据帧A和B，并为数据帧A和B中不常见的列获取空值？我可以看到spark的unionAll不支持此操作，并抛出以下错误 org.apache.spark.sql.AnalysisException: Union can only be performedon tables with the same number of columns,

浏览 0提问于2016-08-04得票数 0

点击加载更多

用于计算Spark中频率(值的等级)的UDF

在spark/scala中寻找计算数据帧频率分布的方法