在单个DataFrame中合并两列，并使用PySpark计算出现的次数_如何计算字符串在PySpark数据帧列中的出现次数？_在pandas中按两列聚合并统计第三列中不同值的出现次数 - 腾讯云开发者社区

、、

我的DataFrame name1和name2中有两列。我想加入它们并计算出现的次数(没有空值！)。

浏览 124提问于2021-01-21得票数 2

回答已采纳

1回答

相当于用于pandas.DataFrame的pandas.Series.value_counts

、

我想计算一下数据元组在熊猫DataFrame中出现的次数。例如，假设我的数据如下所示：0 0 02 1 04 1 1(0,0) 2(1,0) 1dtype: int64 但是，我知道的最接近的方法是做一些算术运算，将

浏览 1提问于2019-07-12得票数 0

1回答

如何根据id将多行合并为一个单元格，然后进行计数？

、、、

如何使用PySpark将多行合并为基于id的单个单元格？我有一个包含ids和产品的数据框架。首先，我想将具有相同id的产品合并到一个列表中，然后我想计算每个唯一列表出现的次数。,HOME4,cd4,videoproduct,countmobile-watch,1 cd-

浏览 7提问于2017-12-13得票数 0

回答已采纳

3回答

计算spark数据帧中的字数

、、、

如果不使用SQL的REPLACE()函数，我们如何才能找到spark数据帧一列中的字数？下面是我正在使用的代码和输入，但replace()函数不起作用。from pyspark.sql import SparkSession .builder \ .enableHiveSupport

浏览 3提问于2018-02-22得票数 10

1回答

在pyspark的dataframe中迭代列，而不为单个列生成不同的数据。

、、

我们如何在dataframe中的列中迭代以单独对同一数据same中的部分或所有列执行计算，而不为单个列创建不同的数据same(类似于map在rdd中遍历行，并在行上执行计算而不为每一行创建不同的rddl = list of column names df = dataframe in

浏览 3提问于2017-03-10得票数 1

2回答

Spark Dataframe* - Python -计算字符串中的子字符串*

、、、

我有一个Spark dataframe，它有一个字符串类型的列("assigned_products")，它包含如下值：我想计算"+"在字符串中的出现次数，并在一个新<em

浏览 122提问于2018-07-21得票数 11

回答已采纳

2回答

一个句子中两个单词一起出现的次数

、、、、

我有一只熊猫的资料，在一栏中我有引文。我想计算在同一个句子中出现两个给定单词的频率，并计算这些单词在文档中出现的次数。例如，给定"I“和"have"，计算一个文档中"I”和"have“在同一个句子中出现的次数</em

浏览 7提问于2020-08-14得票数 0

回答已采纳

1回答

使用基于列的发生的Pyspark数据框架过滤器

、、、

我有pyspark dataframe，我想过滤包含列A和B的dataframe。现在，我只想得到B的值，其中A的出现次数大于某个数字N。N=5预期输出您可以看到，由于阈值为5，因此只有列</e

浏览 0提问于2018-08-27得票数 1

4回答

将数据帧中两列的值组合起来，并获取每个列的计数

、、

我有一个有两列的dataframe，每个列都有5个值。我希望将两列中的所有值组合起来，打印它们，并计算每个值出现的次数。例如：列2- Fruits 2 -具有以下值[Apricot, Avoca

浏览 19提问于2021-12-11得票数 0

回答已采纳

1回答

如何使用pySpark将items行中的数组列单元格转换为计数？

、、、

我有一个在一列中有多个值的数据集，并且我想计算每个值在数据集的所有行中出现的次数。+ 1 ++ val3 + 2 ++---------+-------+ 代码在pySpark中我使用了split函数来获取一个值数组。我有一个包含数组列的</

浏览 15提问于2019-10-06得票数 0

回答已采纳

1回答

如何合并或连接spark中列号不相等的数据帧

、、、、

我正在做一个使用spark的项目。在某些阶段，我需要在单个数据帧中合并或连接3个数据帧。这些数据帧来自spark sql表，我使用了联合函数，它已经合并了两个表中具有相同编号的列，但我也需要合并不相等的列值。我现在很困惑，有没有办法在pyspark中合并或连

浏览 13提问于2016-09-22得票数 0

1回答

如何除以星火DataFrame中列的和

、、

如何在不立即触发计算的情况下，高效地将列除以其在星火DataFrame中的自身和？spf.col('id') / s)这很好，但它会立即触发一个计算；如果您为许多列定义了类似的内容另一种方法是使用包含整个表的窗口规范： w = Windo

浏览 0提问于2018-01-31得票数 2

回答已采纳

2回答

如何在PySpark中获得数据类型为时间戳的列的null/nan计数？

、、、

我有一个名为 createdtime 的列，其数据类型为时间戳，我希望找到创建时间为空或空或nan的行数。from pyspark.sql.functions import col,isnan,when,count df_Columns=["

浏览 5提问于2022-06-26得票数 0

2回答

在数据库环境中尝试合并或连接两个pyspark.sql.dataframe.DataFrame

、、、

我在中有两个数据仓库。两种类型都是: pyspark.sql.dataframe.DataFrame Error Message: TypeError: cannot concatenate object of type "<class 'pyspark.sql.dat

浏览 8提问于2020-02-06得票数 0

回答已采纳

1回答

根据update_time将数据帧内的多个spark行按ID合并为一行

我们需要使用Pyspark将基于ID的多行合并到单个记录中。如果该列有多个更新，那么我们必须选择对它进行了最后一次更新的那个。请注意，NULL表示没有对该实例中的列进行更新。因此，基本上我们必须创建一行，其中包含对记录所做的合并更新。因此，例如，如果这是数据帧...寻找类似的答案，但在Pyspark ..Merge rows in a spark scala <e

浏览 18提问于2021-10-14得票数 0

2回答

如何使用PySpark将这些多个csv文件(大约130,000个)有效地合并为一个大型数据集？

、、、、

我之前发布了这个问题，并得到了一些使用PySpark的建议。 b

浏览 14提问于2020-02-17得票数 2

回答已采纳

1回答

计数PySpark数据帧中出现的次数为零

、、、、

如何计算每个PySpark Dataframe's行中0s的出现次数？我想要这个结果，请注意，n0列包含逐行计数： +--------+-----+-----+----+-----+---++-

浏览 17提问于2020-11-15得票数 0

回答已采纳

4回答

dplyr n_distinct有条件

、

使用dplyr对数据集进行汇总，我想调用n_distinct来计算列中唯一出现的次数。但是，我还想对满足另一列中的条件的列中的所有唯一出现的情况进行另一次总结()。名为“a”的示例dataframe：1 Y3 Ya %>% summaris

浏览 9提问于2016-01-06得票数 15

回答已采纳

2回答

SQL count一个值在多列中出现了多少次？

、

我在mysql数据库中有两列，我想要计算单个名称在这两列中出现的次数。COUNT函数本身对我不起作用，因为它只计算一列中的总数。MySql列：| Member1 | Member2 | +-----------------+----

浏览 0提问于2013-04-30得票数 6

回答已采纳

1回答

pandas groupby count字符串出现在列上

、、、、

我想计算一个分组的pandas dataframe列中字符串的出现次数。对于这些组中的每个组，我希望在scores列中计算RET的出现次数。结果应该如下所示：A X 1B Z 2 按<

浏览 1提问于2015-07-27得票数 13

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云