PySpark:计数对出现频率

文章/答案/技术大牛

发布

1回答

假设我有一个数据集，如下所示： 1: a, b, c3: c, d, e 我想写一个Pyspark代码来计算每个对的出现次数，比如(a,b), (a,c), (b,c)等。

浏览 72提问于2021-11-17得票数 0

1回答

Pyspark dataframe:交叉表或其他方法将行标记为新列

、、

我有一个pyspark数据帧，如下图所示：例如，我有四列:年份、单词、计数、频率。这一年是从2000年到2015年。我可以对(pyspark) dataframe进行一些操作，这样我就可以得到如下图所示的结果：新的数据框列应该是: word、frequency_2000、frequency_2001、frequency每一年中每个单词的频率来自于先前的数据帧。另外，如果你能提供更多的信息，请重新命名标题。

浏览 35提问于2018-12-11得票数 3

2回答

计算列表中第一个元素的频率

、

我试图计算列表中第一个元素出现的频率。], [4, 3, 1, 2], [4, 3, 1, 2], [1, 3, 4, 2], [2, 3, 4, 1], [2, 1, 3, 4]]Counter(l[0] for l in firstValue).most_common()) 如果有两个或更多的数字出

浏览 6提问于2022-01-08得票数 -1

回答已采纳

1回答

具有给定术语的文档的PySpark* HashingTF计数*

、、

我想要计算出现各种单词的行数-本质上是出现“术语”的“文档”的数量-以及相关的计数，如最频繁的单词，具有最频繁单词的行(或称为文档)。我正在使用来自pyspark.ml.feature的HashingTF。但是似乎找不到一种有效的方法来从输出中提取这些信息。and jumped and ran after the bird"from pyspark.sqlimport s

浏览 25提问于2021-08-31得票数 0

回答已采纳

1回答

如何在没有maxDF参数的情况下将maxDF设置为pyspark.ml.feature.CountVectorizer？

、、、、

使用pyspark.ml包中的CountVectorizer，我的程序已经运行得很好了。但是，这个CountVectorizer没有像sklearn.feature_extraction.text包中的CountVectorizer那样的maxDF参数，它可以删除在文档列表中出现频率太高的术语有没有办法从pyspark.ml包中将其应用到CountVectorizer？

浏览 0提问于2018-11-08得票数 2

2回答

如何对java集合中的用户定义的条件列表进行排序

、、

我想要根据出现的次数对以下项目进行排序我正在使用 List<Gender> list = query.list(); } 但上面的逻辑给出了与基于完整列表而不是基于AssignedTo的频率计数相同的序列我想要找到频率，然

浏览 14提问于2018-12-20得票数 0

2回答

MySQL数据库中出现频率最高的值

、

如何选择MySQL数据库中出现频率最高的值？假设我有一个num字段，其中包含以下行：如果我想找出出现频率最高的三个值1、3和17，我该如何去做(并获得一个计数)？正确的方法是对每个值执行SELECT UNIQUE并进行计数吗？有没有更有效的方法？对于更大的数据集，这似乎是失败的。谢谢你的帮助！这是用PHP编写的，有一个MySQL数据库。

浏览 1提问于2011-03-20得票数 3

回答已采纳

1回答

如何计算给定数据集的词汇理解和语义信息？

、、、

在词典、分类法、本体论和其他知识结构的自动构造中，他们提到了；然而，审查不包括计算/推导这些措施的方法。有人能指定如何为给定的文本文档获取这两个度量吗？

浏览 0提问于2018-03-23得票数 1

1回答

使用Pyspark从单词列表的行条目中创建元组，并使用RDD进行计数

、、、、

我有一个由5个单词(5个单词n-gram)、它们的计数、页数和(ngram)\t(count)\t(page_count)\t(books_count)格式的文档数组成的RDD。我正在尝试使用PySpark以(word, count)格式获得单个单词及其计数的最终输出。额外的附加问题:是否有类似于头/尾的PySpark RDD功能？我想查看出现频率最高和最低的单词。到目前为止，我的想法是先缓存未排序的RDD，然后对ascending=True和ascendin

浏览 8提问于2021-02-05得票数 1

回答已采纳

1回答

如何使用Scikit学习在语料库中获取单词/术语频率？

、

我有一个文档的语料库，我想提取每个文档中的单词频率。我可以使用CountVectorizer()来获取每个文档的术语计数，我也可以使用TfidfVectorizer()获取术语频率--反向文档频率，但这两种方法似乎都不能单独给出术语频率。我如何获得术语频率？这个似乎问我的问题，但问题和答案有关的术语计数，而不是术语频率。也许是我误解了这些术语，但我的理解是，术语计数是每个术语出现在文档中的整数次数，而术语频

浏览 4提问于2021-06-08得票数 3

回答已采纳

2回答

PySpark:无法计数array<string>中的单词频率

、、

如果我在PySpark控制台上键入“word”，就会得到：每个元素都是逗号分隔的。现在，考虑到这个数组，我想以这样的方式找出它们的频率：PythonRDD[292] at RDD at PythonRDD.scala:43

浏览 3提问于2017-12-01得票数 1

回答已采纳

1回答

使用spark streaming从流数据构建图形

、

我是spark的新手。我需要从像twitter tweet这样的流数据中构建一个共现图(在tweet中，-words将成为节点，如果单词来自同一tweet，我们会在它们之间添加一条边)。我们可以使用spark streaming来构建一个实时的共现twitter图吗？spark streaming是否适用于此用例？我不确定是否可以使用spark streaming来完成。如果不是，还有其他选择吗？

浏览 1提问于2015-06-04得票数 6

2回答

根据每个元素的频率对数组元素进行排序

、、

我正在寻找一种用C语言编写的算法，可以按频率对数组元素进行排序(从最少到最频繁)。3, 3, 3, 4}; //initial array 具有相似频率的元素(在上面的示例中为5、4和2)的顺序并不重要，只要它们与相同频率的其他元素组合在一起即可。

浏览 2提问于2016-04-24得票数 0

2回答

在Lucene中获取每个文档的搜索词命中(出现次数

、

有没有人能建议我在Lucene中获得每个文档一个单词的最好方法(无出现次数)？

浏览 0提问于2009-12-17得票数 1

2回答

Lucene计算平均项频率

、、、、

我目前正在基于下面的实现对Lucene标准的修改。实际公式的实现是直截了当的，但我正在努力计算所需的统计数字。我需要以下两项统计数字：平均项频率：这是对集合中所有文档的上述度量的算术平均值。在查询时，我可以提取文档的平均术语<em

浏览 5提问于2017-12-09得票数 1

2回答

获取默认字典的值

我从一堆或电子邮件中读取数据，并计算每个单词的频率。首先构造两个计数器：通过以下方式获取频率 counters.form[word][file_name] += 1 对于每个表单，都有一个计数器来存储该单词出现的所有电子邮件，以及该表单在该电子邮件中的出现频率。

浏览 1提问于2012-05-10得票数 1

回答已采纳

2回答

Server:如何在单个查询中在计数前执行TOP

、

我想得到每种操作类型执行频率的百分比。在一个查询中，如何获得前1,000,000行，然后计数每种类型的操作出现的次数？

浏览 1提问于2019-11-26得票数 1

回答已采纳

1回答

动态汇总和重命名PySpark中的聚合列

、、、、

我有一个PySpark数据帧(Df)，其中包含50+列，其中包含一些动态列，这些列可能存在也可能不存在，但它们存在于一个单独的列表(Reqd_col)中。我想对列表(Reqd_col)中存在的PySpark data frame(df)中的那些列进行汇总(按固定列‘region’分组)和汇总总和或计数，汇总列的名称应与列的原始名称相同，而不是PySpark以下是一个例子： df- PySpark数据帧，由50+列组成 Reqd_Col = 'Amount'，'

浏览 24提问于2021-09-08得票数 0

3回答

显示数组的一定数量的唯一值

、

"Skyler", "Marie", "Walter", );$count = array_count_value

浏览 0提问于2012-11-14得票数 0

回答已采纳

3回答

根据出现频率排列列表中的元素(具有重复元素)

、

根据元素在列表中出现的频率来排列列表元素(包含重复元素)的好方法是什么？我需要使用列表中出现频率最高的5个项目。我正在考虑使用HashMap来计算元素的频率，方法是每次元素出现时都递增相应的计数器&然后执行HashMap迭代5次以找到最高的频率。元素在每次迭代上。

浏览 0提问于2011-05-13得票数 4

点击加载更多