Pyspark Dataframe从以字符串作为元素列表的列中获取唯一元素

文章/答案/技术大牛

发布

2回答

从PySpark DataFrame列中删除元素

我知道PySpark DataFrames是不可变的，所以我想创建一个新列，该列是根据应用到PySpark DataFrame的现有列的转换生成的。我的数据太大了，无法使用collect()。该列是唯一int列表(在给定列表中不重复int)，例如：[1,2][2,3] 上面是一个玩具

浏览 9提问于2017-01-12得票数 1

回答已采纳

0回答

、、、、

我有一个dataframe (通过从azure中的多个blob加载而创建)，其中我有一个列，即ID列表。现在，我想要整个列中的唯一I列表：df - | "a" | "b" |"[q,r]"| | "c" | "f" |"[s,r我目

浏览 0提问于2017-12-13得票数 1

回答已采纳

1回答

从PySpark数据字典列表中提取密钥

、

我有一个PySpark dataframe，它有一个列，前两行如下所示。一个字典的列表。然而，PySpark似乎将它们解释为字符串。Color'}]我的</

浏览 5提问于2022-05-10得票数 0

1回答

如何将电火花列(pyspark.sql.column.Column)转换为火花放电数据？

、、

我有一个用例来映射基于条件的pyspark列的元素。通过这个文档，我找不到一个函数来执行映射函数。因此，尝试使用pyspark映射函数，但无法将pyspark列转换为dataFrame 注意:我之所以使用pyspark列，是因为我从我使用的库(远大期望)中获得了它的输入。replace the above logic with

浏览 4提问于2021-11-19得票数 0

回答已采纳

1回答

从星星之火数据中的列表中提取值，而不转换为熊猫

、、

我有一个火花数据框架，如下所示:每行包含一个列表，我想从中提取一个元素。我非常绿色的火花，所以我把它转换成一个熊猫DataFrame，然后使用地图功能，我提取所需的元素。问题是，数据是巨大的，因此这种方法是不可扩展的。让我花时间的是toPandas()命令。是否有从每一行访问列表中的值的选项？谢谢!

浏览 5提问于2021-12-09得票数 1

回答已采纳

5回答

如何在Spark SQL中限制functions.collect_set？

、

我正在处理一个大型spark DataFrame中的一列数字，我想创建一个新列来存储出现在该列中的唯一数字的聚合列表。基本上就是functions.collect_set所做的事情。但是，我只需要聚合列表中最多1000个元素。有没有办法以某种方式将该参数传递给functions.collect_set()，或者是否有其他方法可

浏览 9提问于2016-08-03得票数 16

1回答

Pyspark:从列表的RDD创建spark数据帧，其中列表的一些元素是对象

、、、、

我正在尝试将pandas.DataFrame代码转换为等效的pyspark DataFrame。我有一个以下格式的RDD。[2, 'b', {'c': 1, 'd':3}],内部列表中的第

浏览 1提问于2018-04-07得票数 1

1回答

如何从PySpark列表中删除/替换字符

、、、

我是Python/PySpark的新手，目前在Databricks中使用它。我有以下列表 ('{"name":"leo", "object" : ["191.168.192.96", "191.168.192.99"]}',), ]然后，jsonRDD =

浏览 6提问于2019-11-15得票数 0

回答已采纳

1回答

如何在控制台上打印spark数据框名称

、

我是spark的新手。我们有没有内置的函数来打印刚才的数据框名称？

浏览 6提问于2020-02-17得票数 0

回答已采纳

1回答

从火花数据中选择或删除重复列

、、、

给定一个星星之火数据，有一个重复的列名(例如。( A)对于不能修改上游或源的，如何选择、删除或重命名其中的一个列，以便检索列值？df.select('A')向我显示了一个不明确的列错误，filter、drop和withColumnRenamed也是如此。如何选择其中一列？

浏览 0提问于2018-09-06得票数 2

2回答

如何将值传递给表中的pyspark变量？

、、

这可能是一个愚蠢的问题，但我有一个表，其中的每一列都包含要传递给变量的值： select sfObject from db.tblwhere Id = {} 我看到的是一个名为sfObject的列，它的预期值为'ValueA‘，我得到一个<e

浏览 1提问于2020-06-10得票数 1

回答已采纳

3回答

在单个列中计算跨列表的值的实例

、、、

我有一个PySpark dataframe，其中1列由字符串列表组成。我想在所有行中计算每个字符串列表中每个元素的实例数。伪码：for attr_list in df['attr_list']:另一种方法是将所有行的所有列表连接起来，并从单个庞大列表</

浏览 6提问于2020-05-08得票数 1

回答已采纳

1回答

从PySpark* DataFrame数组的整数列表中快速检索唯一的整数？*

3]|| [9]|+--------------------+| [8, 0, 1]|如何转换df数组中列表中的元素，以便任何不是{0, 1, 8} (df2的唯一元素)<em

浏览 0提问于2017-07-10得票数 2

回答已采纳

3回答

我有一个带有N列的表，我想将它们连接到一个string列中，然后在该列上执行一个散列。我想完全在Spark中完成这项工作，理想情况下，我已经尝试过HASH(*) as myhashcolumn，但是由于几个列有时为null，我无法像我所期望的那样使它工作。如果我必须创建一个UDF并注册它以实现这一点，我需要使用Python而不是Scala，因为我的所有其他代码都是用Python编写的。有什么想法吗？

浏览 1提问于2018-11-26得票数 1

回答已采纳

4回答

如何在Spark中压缩两个数组列

、、、、

我有潘达的数据。我尝试将包含字符串值的两个列连接到一个列表中，然后使用zip将列表中的每个元素都用'_‘连接起来。我的数据集如下：df['column_2']: '1.0, 2.0, 3.0' 我想将这两列连接到第三列<

浏览 2提问于2019-01-21得票数 9

回答已采纳

3回答

pyspark:获取dataframe的每一列中的唯一项

、

我有一个包含一百万行和560列的spark数据帧。我需要找到dataframe的每一列中唯一项的计数。我已经编写了以下代码来实现这一点，但它被卡住了，并且执行起来花费了太多的时间： var=count_unique_items.append(data.select(var).distinct().rdd.map(lambd

浏览 9提问于2016-11-29得票数 0

1回答

映射函数在DataFrame上的应用

、、

我刚刚开始使用databricks/pyspark。我正在使用python/spark 2.1。我已将数据上载到表中。该表是一个充满字符串的单列。我希望对列中的每个元素应用一个映射函数。我将表加载到数据帧中：我能看到的唯一方法是别人说的是将其转换为RDD以应用映

浏览 1提问于2017-07-31得票数 18

回答已采纳

1回答

pyspark将数组转换为循环中的字符串

、、、

我有一个心理公园数据框架，它有字符串，整型和数组类型的列。我尝试对所有列运行for循环，以检查它们是否为任何数组类型的列，并将其转换为字符串。然后，pyspark数据框中的输出应该包含int、string列。下面的代码将只返回从数组转换为字符串的列。如何包含else语句以从

浏览 20提问于2021-04-11得票数 0

回答已采纳

3回答

检查DataFrame列是否仅包含字符串

、

假设我有一个DataFrame df0 a 12 b_ 5我只想从A列中获取这些字符串元素(e.x作为列表)，所以在本例中只会返回a。我想到了.str.contains()，但我更喜欢使用基于类型的东西。

浏览 23提问于2020-05-05得票数 1

回答已采纳

2回答

将具有Numpy值的熊猫数据转换为pysparkSQL.DataFrame

、、、、

我使用random.int方法创建了一个2列熊猫df，以生成第二个应用groupby操作的第二列数据。df.col1是一系列列表，df.col2是一系列整数，列表中的元素类型为‘numpy.int 64’，与第二列的元素相同，这是random.int的结果。回到df生成阶段，我尝试了不同的方法将元素从numpy

浏览 11提问于2017-07-31得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

从PySpark DataFrame列中删除元素