如何在pyspark中使用rlike使用多个regex模式

文章/答案/技术大牛

发布

1回答

、、

我必须使用多个模式来过滤一个大文件。问题是我不确定使用rlike应用多个模式的有效方法。Liberty||19 west main street|+-------------------+ 如果我从数据中使用以下两种模式(pat2)).filter(~df['poi'].rlike(pat1)).show(

浏览 38提问于2018-08-17得票数 4

回答已采纳

2回答

如何检查列是否只包含某些字母

、、

你知道我应该使用哪个函数吗？

浏览 28提问于2020-06-19得票数 1

回答已采纳

3回答

用字符串格式的regex过滤数据吗？

、、

我读过几篇关于使用"like“操作符通过包含字符串/表达式的条件过滤星体数据的文章，但我想知道以下是否是在所需条件下使用%s的”最佳实践“：dx = sqlContext.read.parquet(input_path) # "keyword" is a field in dx 我正在尝试获取中包含表达式my_keyword的dx

浏览 2提问于2017-08-09得票数 31

回答已采纳

2回答

当子字符串在列表中时，在PySpark数据中创建一个新列

、、、、

| PIZZA |我创建了一些具有某些字符的列表，如果我使用函数

浏览 7提问于2022-05-07得票数 0

2回答

如何使用.contains()在PySpark中进行单子或多子串筛选？

、、、

我需要基于存在“子字符串”的列进行过滤，该列包含Spark中的字符串。目前，我正在执行以下操作(使用.contains进行过滤)：sdf = spark.createDataFrame(df) 但是

浏览 7提问于2021-11-10得票数 0

1回答

如何在我的数据的每一行中搜索一个单词？

Marketing", "Sales woman in flagship doors -Guerlain", "Senior Beauty Brand Manager",]我使用了以下代码

浏览 4提问于2022-03-30得票数 0

2回答

SparkR regexp_extract函数问题

、、

数据问题df1 <- df %>% dplyr::mutate(sampletaken1 = ifelse(rlike

浏览 11提问于2020-06-08得票数 1

回答已采纳

1回答

在pySpark sql函数中使用非消耗正则表达式

、、、

如何使用现有的pySpark sql函数在字符串列中查找非消费正则表达式模式？from pyspark.sql import ( functions as F) .appName("regex")

浏览 52提问于2019-05-17得票数 0

2回答

多列上的PySpark数据帧过滤器

、、、

使用Spark 2.1.1id Name1 Name2 现在需要根据两个条件来筛选行，即需要过滤掉2和3，因为name具有number的123，而3具有空值df.select("*").filter(df["Name2"].rlike("[0-9]")).show() 把第二个条件也包

浏览 6提问于2017-08-23得票数 0

回答已采纳

1回答

MySQL全文匹配-多个单词

、、、

在我的术语词典中，搜索选项之一是“只使用完整的单词”。一开始我用但是，当有多个$keyword时，这不能匹配第一个或第二个的全部单词。然后我发现使用[[:<

浏览 1提问于2019-02-23得票数 1

回答已采纳

5回答

如何在spark中使用“”？

、、

rlike运行良好，但not rlike抛出了一个错误： scala> sqlContext.sql("select * from T where columnB not rlike'^[0-9]*$'").

浏览 2提问于2015-12-30得票数 8

回答已采纳

2回答

使用startswith from list的Pyspark过滤器

、、、

我有一个元素列表，这些元素可以开始RDD中记录的几个字符串。如果我有yes和no的元素列表，它们应该匹配yes23和no3，而不是35yes或41no。使用pyspark，我如何使用startswith列表或元组中的任何元素。py4j.GatewayConnection.run(GatewayConnection.java:214)所以看起来startsWith不能与任何类型的列表一起使用

浏览 0提问于2018-02-01得票数 10

回答已采纳

2回答

MYSQL喜欢不正确的结果

、、

我正在使用Like从表格中找到一些模式示例表： id | title | 1 | f550 | 2 | f550 | 3 | f-550 | 4 | f 550 | 我使用LIke查询来检查我的记录，所以假设如果我搜索f550，它只带来2条技术上正确的记录，但我希望所有记录都具有任何模式，如(f550，f-550，f 550) 除了REGEX，我还能做什么？我的查

浏览 12提问于2019-09-05得票数 1

回答已采纳

1回答

使用自定义模式创建一个拼花文件

、、

我有这样的要求：我们有一个API，它将给我们列的模式。我必须使用来自API的模式创建一个parquet文件。我们如何在使用PySpark的Databricks中做到这一点。

浏览 4提问于2022-07-30得票数 -1

回答已采纳

1回答

mysql LIKE和regex与RLIKE和diacritics的比较

、、、

问题是，数据库中的数据使用的不是字母，而是字母ae oe ue。我需要找到他们的可能性。并使用一个>RLIKE $string<。但数据库中也有“勒内人”。当我使用RLIKE时，我无法通过输入"Rene“找到它们。另一方面，如果我使用>如$string<，它会在输入"Rene“时找到”Rene“，但是在那里不可能使用regex。我搜索了几个小时，还在这里

浏览 1提问于2016-03-03得票数 1

回答已采纳

3回答