使用pyspark从每个行的数组中获取不同的计数

文章/答案/技术大牛

发布

1回答

、、、

我正在使用pyspark dataframe从每个行的数组中查找不同的计数:输入: col1 1,1,1 1,2,1,212 output:3 please help me how do i achieve this using python

浏览 10提问于2020-02-28得票数 1

回答已采纳

3回答

pyspark:获取dataframe的每一列中的唯一项

、

我有一个包含一百万行和560列的spark数据帧。我需要找到dataframe的每一列中唯一项的计数。我已经编写了以下代码来实现这一点，但它被卡住了，并且执行起来花费了太多的时间： var=count_unique_items.append(data.select(var).distinct().rdd.map(lambda r:r[0]).count()) cat_col包

浏览 9提问于2016-11-29得票数 0

2回答

检测数组中不同字符串的数目

、、

基本上需要一个计算数组中不同值数量的函数和另一个函数来给出数组中每个不同值的实际计数。我有一个Array，它包含不断变化的值：我想做一个列表视图，每个部分应该包含不同的类别，例如：- Element 1- ...因此，我需要数字3作为我的节

浏览 4提问于2012-08-08得票数 0

回答已采纳

1回答

火花放电数据群计数中的并行化

、、

我在一个名为part-0001、part-0002等的Linux机器上的一个目录中有大约200个文件。每个行都有大约100万行，具有相同的列(称为'a'，'b'，等等)。让这对'a'，'b‘成为每一行的键(有许多重复的)。同时，我已经建立了一个Spark2.2.0集群，其中包含一个主服务器和两个从服务器，共有42个可用内核。然后，我使用P

浏览 3提问于2017-10-11得票数 3

1回答

Oracle SQL :从表1获取不同的列值，从表2获取每个值的计数

、、

假设表1有名为"class“的列。获取"class“所有不同值的查询：现在有表2，它有3行，类"a"，2行，类"b“，5行，类"c”。什么应该是嵌套查询，可以查询表1，获取"class“列的所有不同值，即本例中的</e

浏览 2提问于2014-03-28得票数 0

1回答

PySpark 2.1.1 groupby + approx_count_distinct计数为0

、

我使用的是Spark2.1.1 (pyspark)，在一个大约有14亿行的DataFrame上执行groupby，然后进行approx_count_distinct聚合。groupby操作产生大约600万个要执行approx_count_distinct操作的组。这些组的预期不同计数范围从个位数到数百万。下面是我使用的代码片段，其中'item_id‘列包含项目的ID，&#

浏览 0提问于2017-10-05得票数 0

8回答

使用pyspark获取列的数据类型

、、

我们正在读取来自MongoDB Collection的数据。Collection列有两个不同的值(例如：(bson.Int64,int) (int,float) )。我正在尝试使用pyspark获取一个数据类型。1238 56.22345566677777789 21 实际上，我们没有为mongo集合<

浏览 42提问于2017-07-11得票数 62

回答已采纳

1回答

将每个二元语法从列表格式移动到Pandas或Pyspark数据帧中的新行

、、、、

我有pandas和pyspark数据帧，每天每行都有二元组的列表。我想打破列表，并将每个二元组合移动到一行，计数按降序排列。如下所示是我拥有的数据帧。我已经按event_dt进行了排序。在“merged”列中，显示了二元语法的列表。例如，“漂亮的相遇”和“相遇后付费”是两个二元语法。双连词的列表每天都在继续... ? 现在，我想要将每个biagram移动到同一日期的新行。

浏览 40提问于2020-10-23得票数 0

回答已采纳

1回答

在pyspark的数组列中使用SequenceMatcher

、、

我有一个数据帧，在pyspark dataframe中有一个数组列‘test’，它有3行或更多行。测试-‘hello’，‘地狱’，‘Help’，‘helper’‘sequence’，‘seque’ 如何使用difflib.sequencematcher遍历行的每个元素，如果两个元素的比率小于90%，则在新列中添加两个元素，说明‘test_ratio，如果它大于，则只保留两个元素中的一个元素？示例:<

浏览 11提问于2021-07-18得票数 0

回答已采纳

1回答

星火的RDD.combineByKey()是否保持先前排序的DataFrame的顺序？

、、、

我在PySpark中这样做过：使用整理每个资产的所有数据，使用资产的序列号作为密钥。问题：，我能确定每个资产的数据仍然会在最后一步的RDD中按时间顺序排

浏览 1提问于2017-04-26得票数 0

回答已采纳

1回答

在Pyspark中查找相关的文档名称

、、

我有一个包含两列(id，name)的数据框。名称列具有相关的名称。例如，术语，相关术语，相关行，行。我想在不同的行中找到相似的名字。我已经尝试了余弦相似度，但无法实现这一点。我已经使用pyspark计算了TF-IDF。寻找使用pyspark在不同行中获取相关名称的方法。

浏览 11提问于2018-02-23得票数 0

3回答

在单个列中计算跨列表的值的实例

、、、

我有一个PySpark dataframe，其中1列由字符串列表组成。我想在所有行中计算每个字符串列表中每个元素的实例数。，并从单个庞大列表中构建一个计数器。在PySpark中是否有一种有效的方法来做到这一点？正确的输出将是一个collections.Counter()对象，其中填充了所有列中所有列表中每个项的出现数，也就是说，

浏览 6提问于2020-05-08得票数 1

回答已采纳

2回答

单表中的多行计数

、、

如何使用db2查询从单个表中获取多个记录的计数？假设我想使用以下方法获得1条记录的计数：我需要的是对每个记录在不同的行中对同一表中的多个记录进行计数<

浏览 4提问于2015-02-26得票数 1

回答已采纳

1回答

VBA，获取每个不同数组值的不同计数。

、

在MS Word中使用VBA。我目前在ArrayList中有一组数字(请推荐一个更好的选项来存储一个值列表)，我希望得到每个值的不同计数(所以10 =1和10.5 = 4)。我试着过滤ArrayList，但我认为它并不能与“包含”的值完全匹配，所以过滤数组和计数对我不起作用(所有返回的值)。我尝试了我找到的其他解决方案，但没能让它起作用。任何人都会推荐解决方案。

浏览 1提问于2021-06-19得票数 0

回答已采纳

1回答

平面文本文件中的分布式dask矩阵

、、、、

我正在尝试将矩阵的平面文本文件(以制表符分隔)表示到dask数组中，使用distributed将数组的块分布到集群中。(旁白:这与PySpark的方法没有什么不同) 但是，我不清楚如何使用可用的工具将文本文件解析成矩阵结构。在PySpark中，我可以使用一个简单的map来完成这个任务，该map可以将空格上<em

浏览 1提问于2016-06-03得票数 1

回答已采纳

1回答

如何计算php数组中的嵌套对象

、、、

我有这样的数据： 0: [ 1: {fruits: "orange", pricefruits: "avocado", price: "18000"}, ],我想问如何知道第二个数据的长度，我已经尝试<

浏览 1提问于2020-12-17得票数 0

回答已采纳

2回答

从字符串数组中获取每个不同单词的计数

、

我有一个字符串数组：我想要从所有字符串中获得每个单词的计数，比如stackoverflow : 2 我想使用LINQ并且只使用一条语句来获得

浏览 0提问于2016-12-06得票数 0

1回答

pyspark.sql.functions -计数以考虑空值：

、

我试图让pyspark.sql.functions.count()函数或pyspark.sql.functions.count_distinct()函数在计算列中不同元素的数量时考虑null值。| accounts| null|+---+------+-----------+------+ 现在，如果我运行以下代码来计算每个列中不同值的数量从我<

浏览 12提问于2022-06-07得票数 0

2回答

Pyspark:滚动窗口中的聚合模式(最常见)值

、、、、

我有如下所示的数据。我想按device分组，在每个组内按start_time排序。然后，对于组中的每一行，从其前面3行的窗口(包括其自身)中获得最频繁发生的站点。Python| 6| null| station_2|由于Pyspark没有mode()函数

浏览 1提问于2022-01-13得票数 1

回答已采纳

1回答

如何使用pySpark将items行中的数组列单元格转换为计数？

、、、

我有一个在一列中有多个值的数据集，并且我想计算每个值在数据集的所有行中出现的次数。+ 1 ++ val3 + 2 ++---------+-------+ 代码在pySpark中我使用了split函数来获取一个值数组。我有一个包含数组列的数据集，但我不知道如何正确<e

浏览 15提问于2019-10-06得票数 0

回答已采纳

点击加载更多