首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >用火花排序列中的值

用火花排序列中的值
EN

Stack Overflow用户
提问于 2019-12-04 20:28:15
回答 2查看 805关注 0票数 1

我的木星笔记本里有火花数据框。我想对列“关键字”中的特定值进行排序。我只需要返回那些有一个或几个匹配值的行。

下面是我需要排序的列的样子。

代码语言:javascript
运行
复制
+--------------------+
|            Keywords|
+--------------------+
|      ["apocalypse"]|
|["nuclear","physi...|
|                null|
|["childhood","imm...|
|["canned tomatoes...|
|                null|
|["american","beef...|
|["runway","ethose...|
|["taylor swift st...|
|["beauty","colleg...|
|                null|
|["curly hair|coil...|
|["glossier|shoppi...|
|["stacey abrams",...|
|["quentin taranti...|
|                null|
|["Mexican|Cinco D...|
|["Bridal Spring 2...|
|                null|
|["everyday athlet...|
+--------------------+

我想要创建一个新的数据,只有当关键字=“美”,“跑道”行。我该怎么做?我本来打算用Python创建一个for循环,但不知道如何在中实现.任何帮助都将不胜感激。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2019-12-04 21:59:10

对于一般的解决方案,可以使用列表指定要包含的单词/关键字作为输出的一部分,并在df的筛选器中使用。

代码看起来如下:

代码语言:javascript
运行
复制
from pyspark.sql.functions import udf
from pyspark.sql.types import BooleanType

valid_words = {"beauty", "runway"} # Define a list of valid words
filtered_df = df.filter(udf(lambda kwords: len(valid_words & set(kwords))>0, # Condition to identify if we have at least, 1 valid word
                                  BooleanType())(df.Keywords))
filtered_df.show()

因此,如果需要包含任何其他有效单词,则只需更新列表(valid_words)。

此外,标题应该更新,这与排序无关,更多的是对给定ArrayType列的行进行过滤。

票数 2
EN

Stack Overflow用户

发布于 2019-12-04 20:36:15

Since the expected output is difficult to define, this can be used for what I have understood so far.

代码语言:javascript
运行
复制
from pyspark.sql.types import *
from pyspark.sql import SparkSession
import pyspark.sql.functions as F
from pyspark.sql.functions import udf
spark = SparkSession.builder.appName('test').getOrCreate()
df = spark.createDataFrame([[["apocalypse"]],[[None]],[["beauty","test"]],[["runway","beauty"]]]).toDF("testcol")
df.show()
+----------------+
|         testcol|
+----------------+
|    [apocalypse]|
|              []|
|  [beauty, test]|
|[runway, beauty]|
+----------------+


df.filter(F.array_contains(F.col("testcol"),"beauty")|F.array_contains(F.col("testcol"),"runway")).show()
+----------------+
|         testcol|
+----------------+
|  [beauty, test]|
|[runway, beauty]|
+----------------+
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/59184203

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档