如何统计pyspark dataframe中一列列表中元素的出现频率？_如何统计和存储PySpark数据帧中某一列中项的出现频率？_如何统计某一列中唯一词出现的频率？ - 腾讯云开发者社区

list、pyspark、apache-spark-sql、frequency-analysis

我有一个pyspark数据帧，如下所示， data2 = [("James",["A x","B z","C q","D", "E"]),3 Maria [X, A y, B z, F, B] 4 Jen [A, B, C q, F,

浏览 241提问于2021-11-16得票数 0

回答已采纳

1回答

如何将列表中的值赋值给熊猫数据，并控制每个列表元素在dataframe中的分布/频率

python-3.x、pandas、numpy、dataframe

我正在构建一个dataframe，需要将定义的列表中的值赋值给dataframe中的一个新列。我找到了一个答案，它给出了一种方法，将列表中的元素随机分配给dataframe中的一个新列()。但是，我希望能够通过指定出现频率或控制每个列表<e

浏览 24提问于2020-05-21得票数 0

回答已采纳

1回答

Pandas dataframe中针对每一行的列表的出现频率

python、pandas、frequency

假设我有一个名为“base”的6个整数的列表，还有一个包含100,000行的数据，还有6列整数。我需要创建一个额外的列，它显示在dataframe数据中的每一行中列表‘base’出现的频率。在这种情况下，列表‘base’和dataframe中的整数序列都将

浏览 0提问于2015-11-05得票数 0

回答已采纳

1回答

将具有特定出现次数的数据框列的列表元素放入

python

如何提取在数据帧的列中出现特定次数的元素？我设法使用以下公式获得了每个元素的频率：但现在我想在控制台中显示一个元素列表，这些元素在一列dataframe中出现特定的次数。

浏览 0提问于2018-02-11得票数 1

2回答

从PySpark DataFrame列中删除元素

pyspark

我知道PySpark DataFrames是不可变的，所以我想创建一个新列，该列是根据应用到PySpark DataFrame的现有列的转换生成的。我的数据太大了，无法使用collect()。该列是唯一int列表(在给定列表中不重复int)，例如：[1,2][2,3] 上面是一个玩具例子，因为我<em

浏览 9提问于2017-01-12得票数 1

回答已采纳

2回答

统计pandas DataFrame中整行的出现次数

python、pandas、dataframe

我需要计算pandas DataFrame中整行的出现次数。例如，如果我有一个数据框： A = pd.DataFrame([['a','b','c'],['b','a','c'],['a','b','c']]) 预期结果应该是： 'a'，'b'，'c‘：2 'b

浏览 133提问于2021-08-03得票数 1

回答已采纳

1回答

在给定输入值列表的情况下，如何在Python语言中计算pandas DataFrame列的计数？

python、pandas、dataframe

4", "2016-1-5", "2016-1-6"] 和pandas DataFrame，在一列中有开始日期，即： df = {"start_date": ["2016-1-3", "2016-1-2"2016-1-6", "2016-1-1"], "event": ["task1", "task43", "task2", &q

浏览 10提问于2021-04-16得票数 1

回答已采纳

2回答

检查给定列表中的元素是否出现在DataFrame的数组列中

python、pandas、apache-spark、pyspark、apache-spark-sql

我有以下在熊猫数据帧上工作的函数 def event_list(df,steps): return df DataFrame有一个名为labels的列，值为list。此函数接受dataframe和Steps (这是一个列表)，如果参数列表中

浏览 136提问于2021-04-02得票数 1

回答已采纳

2回答

如何在pyspark中合并重复的列？

apache-spark、pyspark、apache-spark-sql

我有一个pyspark dataframe，其中一些列具有相同的名称。我想将具有相同名称的所有列合并到一列中。例如，输入dataframe： ? 我如何在pyspark中做到这一点？

浏览 57提问于2021-06-18得票数 2

回答已采纳

1回答

减少方法是否需要初始化程序？

python、python-3.x、dataframe、pyspark、pyspark-dataframes

我试图将任意数量的PySpark数据添加到一起。下面的union_all函数尝试这样做：from pyspark.sql import DataFrame def un

浏览 2提问于2020-12-18得票数 0

回答已采纳

1回答

Pyspark:从列表的RDD创建spark数据帧，其中列表的一些元素是对象

python、pandas、apache-spark、pyspark、rdd

我正在尝试将pandas.DataFrame代码转换为等效的pyspark DataFrame。我有一个以下格式的RDD。[2, 'b', {'c': 1, 'd':3}],内部列表中的第

浏览 1提问于2018-04-07得票数 1

1回答

如何统计pyspark* dataframe中某一列中每个分类变量的出现频率？*

python、pyspark、spark-dataframe

假设我有一个pyspark数据帧：+-----+---++-----+---+|beta | 2||alpha| 2|我想计算一下在x列中出现了多少次alpha、beta和gamma。我如何在pyspark中做到这一点？

浏览 0提问于2018-03-20得票数 4

1回答

列出标题的最简单的方法？

nlp

我在这里的深度太大了--希望这篇文章没问题。我有1000条左右的标题。我试图找出标题是关于同一件事，但措辞不同。希望能找到最容易做到这一点的方法，找出是否有现成的工具，找出相关的教程等等。我一直在谷歌上搜索，但没有发现任何具体的东西，可能是因为我错过了描述它的词汇。(在一个理想的世界里，有一些我不需要编写的在线工具，但如果有必要，我会尝试并编写代码。)谢谢。

浏览 7提问于2022-05-23得票数 2

3回答

将行中的每一列传递给Spark中的哈希函数

python、apache-spark、pyspark、apache-spark-sql

我有一个带有N列的表，我想将它们连接到一个string列中，然后在该列上执行一个散列。我想完全在Spark中完成这项工作，理想情况下，我已经尝试过HASH(*) as myhashcolumn，但是由于几个列有时为null，我无法像我所期望的那样使它工作。如果我必须创建一个UDF并注册它以实现这一点，我需要使用Python而不是Scala，因为我的所有其他代码都是用Python编写的。有什么想法吗？

浏览 1提问于2018-11-26得票数 1

回答已采纳

1回答

Spark :基于s3文件中的字段动态生成查询

scala、apache-spark、apache-spark-sql

基于s3中的这些数据，我们将数据加载到一个表中，并且我们手动地(在每次运行中字段的数目可能会随着添加或删除几个列而改变)运行一个metrics.There，因为很少的metrics.There会对这些数据进行更多的计算Approach：考虑到模式少的特性，由于每次运行时s3文件中的字段数可能不同，只需添加/删除几个字段，这就需要在SQL中每一次进行手动更改，因此我计划探索

浏览 7提问于2020-03-19得票数 1

1回答

Pyspark使用.filter()过滤掉空列表

python-2.7、filter、pyspark、pyspark-sql

我有一个pyspark dataframe，其中一列填充了列表，要么包含条目，要么只包含空列表。我想高效地过滤掉所有包含空列表的行。import pyspark.sql.functions as sf: java.lang.RuntimeException: Unsupported literal type class 也许我可以检

浏览 17提问于2017-02-24得票数 7

回答已采纳

3回答

在单个列中计算跨列表的值的实例

python、apache-spark、pyspark、counter

我有一个PySpark dataframe，其中1列由字符串列表组成。我想在所有行中计算每个字符串列表中每个元素的实例数。伪码：for attr_list in df['attr_list']:另一种方法是将所有行的所有列表连接起来，并从单个庞大列表中构建一个计

浏览 6提问于2020-05-08得票数 1

回答已采纳

1回答

星火DataFrame如何区分不同的VectorUDT对象？

apache-spark、dataframe、pyspark、apache-spark-mllib、apache-spark-ml

我正在尝试理解DataFrame列类型。当然，DataFrame不是一个物化的对象，它只是一组Spark的指令，将来要转换成代码。但我认为，这个类型列表代表了在执行操作时JVM中可能出现的对象类型。()root |-- SparseV

浏览 1提问于2016-07-31得票数 7

回答已采纳

3回答

计算spark数据帧中的字数

python、apache-spark、pyspark、apache-spark-sql

如果不使用SQL的REPLACE()函数，我们如何才能找到spark数据帧一列中的字数？下面是我正在使用的代码和输入，但replace()函数不起作用。from pyspark.sql import SparkSession .builder \ .enableHiveSupport() \

浏览 3提问于2018-02-22得票数 10

1回答

不同dataframes python中的两个列表之间的匹配计数

python、pandas、list

我想计算一个数据帧中一个列表中的单词出现在另一个数据帧中的另一个列表中的频率。我的数据如下所示： df6=pd.DataFrame({'variable':'irreplacable','Words':[['hi','ciao'], ['mine'

浏览 23提问于2019-06-20得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云