文章/答案/技术大牛

发布

社区首页 >问答首页 >如何使用.contains()在PySpark中进行单子或多子串筛选？

问如何使用.contains()在PySpark中进行单子或多子串筛选？
EN

Stack Overflow用户

提问于 2021-11-10 17:28:29

回答 2查看 2.5K关注 0票数 0

这是一个简单的问题(我认为)，但我不确定回答它的最佳方法。

我需要基于存在“子字符串”的列进行过滤，该列包含Spark中的字符串。

目前，我正在执行以下操作(使用.contains进行过滤)：

data = [[1, "ABC"], [2, "DEF"], [3, "DEF"], [4, "JFKLMN"], [5, "JFKOPQ"], [6, "MNO"]]

df = pd.DataFrame(data, columns=["Item", "String"])
sdf = spark.createDataFrame(df)

但是我想概括一下，这样我就可以过滤到一个或多个字符串，如下所示：

filtered_sdf = sdf.filter(
    spark_fns.col("String").contains("JFK") | spark_fns.col("String").contains("ABC")
)

或

filtered_sdf = sdf.filter(
    spark_fns.col("String").contains("ABC")
)

在理想的中，.contains()部分是一个预置参数，包含1+子字符串。

有人知道最好的方法是什么吗？还是另一种方法？

我尝试过使用.isin(substring_list)，但是它不起作用，因为我们正在搜索子字符串的存在。

python

apache-spark

pyspark

apache-spark-sql

回答 2

Stack Overflow用户

发布于 2022-08-25 14:15:54

您可以创建适合所有所需模式的regex模式：

list_desired_patterns = ["ABC", "JFK"]
regex_pattern = "|".join(list_desired_patterns)

然后应用rlike列方法：

filtered_sdf = sdf.filter(
    spark_fns.col("String").rlike(regex_pattern)
)

这将过滤所需模式列表中的任何匹配。

票数 1

Stack Overflow用户

发布于 2021-11-10 20:10:57

使用regex匹配解决了这个问题！

filtered_sdf = sdf.filter(
    spark_fns.col("String").contains("JFK") | spark_fns.col("String").rlike("ABC")
)

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/69917678

复制

相似问题

问如何使用.contains()在PySpark中进行单子或多子串筛选？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用.contains()在PySpark中进行单子或多子串筛选？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用.contains()在PySpark中进行单子或多子串筛选？
EN