Pyspark -如何在匹配后删除字符

文章/答案/技术大牛

发布

1回答

、、、

我有pyspark数据框架，其中我有一个类似这样的列。我想从字符串中删除/ccc。我在pyspark中尝试了几件事，但都不起作用。我需要为此使用UDF吗？但是，它会生成null from pyspark.sql.functions import concat_ws, udf, col "/".join(str.split

浏览 29提问于2021-08-06得票数 0

2回答

在中过滤数组

、、、、

火花版本: 2.3.0['strawberry', 'raspberry']我想要过滤每个数组中包含'apple‘字符串的元素我如何在PySpark<

浏览 3提问于2021-10-01得票数 1

回答已采纳

1回答

字符串中的Pyspark双字符替换避免未映射到pandas或rdd的特定单词

、、、、

我继承了一个修改pyspark dataframe中一些字符串的程序。其中一个步骤涉及从字符串中的一些单词中删除双/三/等字母，以及一个额外的例外列表，即使它们有重复的字母也会保持不变。目前，这是通过将dataframe转换为具有udf的pandas，然后在读回pyspark之前对生成的pandas dataframe中的字符串应用自定义函数来完成的。连续字符删除函数逐字读取字符串，检查单词是否在例外列表中，如果不

浏览 7提问于2021-03-15得票数 0

回答已采纳

1回答

如何在PySpark数据帧显示中设置显示精度

、

调用.show()时如何在PySpark中设置显示精度from math import sqrt#|10.099262230352151|14.212583322380274|如何将其更改为仅在小数点后显示所需输出：#| col1| col2|#

浏览 5提问于2018-02-17得票数 13

回答已采纳

1回答

Regex用于屏蔽文件中的特殊字符密码

、、

我想从一些机密文件中删除或屏蔽密码。我正在使用以下语法，它适用于简单的密码，如字母和数字基本密码，但不适用于特殊字符密码，如!@#$%^。有谁知道如何在正则表达式中匹配特殊字符。

浏览 1提问于2012-04-13得票数 1

回答已采纳

1回答

000000038473)作为字符串？

、、

尝试使用推断模式来推断模式：但是，当数字有双引号时，pyspark将推断整数而不是字符串(例如，当数字有“前导零在这种情况下，我希望Pyspark推断字符串，而不是整数。我想留下InferSchema。它对其他专栏很有帮助。到目前为止

浏览 1提问于2021-06-08得票数 0

2回答

pyspark: dataframe头部转换

、、、、

我正在将csv加载到pyspark dataframe中。我正在尝试删除列标题中的空格和更多特殊字符，如"("，")“和"/”。我可以删除列标题中的空格，如下所示。它只删除列中的空格，而不删除特殊字符。我试了一下，它起作用了。

浏览 63提问于2020-12-15得票数 0

回答已采纳

3回答

Python匹配，直到在identaion之后的某个单词。

、

给定以下字符串或类似字符串：key: > lorem ipsum anotherkey: >lorem ipsum 1213 __ ^123 我正在尝试构建一个REGEX，它捕获一个键后的所有值，然后是一个>符号。因此，对于上面的示例，我希望从key匹配到foo (不包括)，然后从anotherkey匹配到末尾。我想出了一个REGEX来完成这个任务

浏览 1提问于2016-08-24得票数 0

回答已采纳

1回答

如何使用PySpark的RegexTokenizer从字符串中删除数字？

、、

我想使用PySpark的RegexTokenizer从DataFrame列中删除5位或更多位的数字。我可以使用下面的代码提取这些数字，但有人知道我如何删除它们吗？RegexTokenizer(inputCol="description", outputCol="tokenized_description", gaps=False,pattern="[0-9]{5,}") 如果字符串是

浏览 0提问于2019-02-13得票数 0

1回答

如何从列表中删除空格和不需要的字符以比较字符串值c#

、

我有一个列表，假设是unknownChars，它包含一些用户验证所需的字符串‘未知’，'TBC'，'TBA‘等。我需要检查输入的字符串是否存在于我的列表中，但是我需要意识到所有的可能性，例如大小写，以及额外的字符，如'UUknown‘和特殊字符，如N/A。我假设我首先需要规范化输入，删除任何空白空格和任何其他错误输入的字符，然后处理输入以查看正规化的字符串是否匹配。S

浏览 5提问于2017-07-18得票数 0

1回答

如何从字符串替换匹配模式中的多个值

、

我想在字符串中搜索一个模式，然后再次搜索匹配模式中的一些无效字符，然后将它们删除或替换为一些有效字符。在本例中，我希望找到一个字典的值，比如"123y“uhnb\n g”，然后删除其中的无效字符，如("

浏览 0提问于2019-04-20得票数 1

3回答

Java/Groovy - string:替换匹配正则表达式上的字符

、、

在创建从字符串示例获得的匹配正则表达式时，我遇到了一个问题: NotificationGroup_n+En，其中n是来自1-4的数字，当我从范围匹配所需的数字时，我将用这个特定的数字替换或删除它。进程前字符串: NotificationGroup_4+E3我删除了n(数字从1-4)，并留下了_E的编号我的问题是如何在string.replace函数中编写regex以

浏览 0提问于2019-06-05得票数 0

回答已采纳

2回答

如何删除javascript字符串中的一个字符

、、

#a:{width:100px;height:100px;background-color:black;}#b:{width:100px;} 我希望只有在css选择器(如:和#b )从该字符串中删除后，字符#b才会被删除。我认为我必须使用正则表达式，所以我写了一个：看到这个在上工作的正则表达式但是您知道它与:匹配，但是当我尝试使用replace方法删除它时，

浏览 2提问于2014-12-13得票数 1

回答已采纳

2回答

pyspark中的最后一次出现索引

、、

我需要长字符串字段。例如val1|val2|....|val300 我有最大字符数限制，我想保留整个值域。例如，我不想要- val1|val2|....|va 为了不超过最大字符数限制，我使用了substr(1, k)。现在我需要|的最后一次出现。我可以使用以下命令查找第一个匹配项： df = df.withColumn("COL_1", F.locate('|', F.col('COL'), 1)) 如何在Pyspark中找到

浏览 26提问于2019-12-18得票数 0

回答已采纳

2回答

电火花数据格式中的纵倾字符串

、

假设我有dataframe，其中包含列中的值，如：ABC93890380380XYZ3898302MGE8983_ABZ我想要修剪这些值，例如，删除前3个字符和删除最后3个字符，如果它以ABZ结尾。from pyspark.sql import functions as f new_df = df.withColumn("new_column", f.when((condition o

浏览 6提问于2022-04-08得票数 2

回答已采纳

1回答

在PySpark中自动删除检查点文件

、

我在我的PySpark代码中创建了spark上下文和会话， conf = SparkConf().set("spark.cleaner.referenceTracking.cleanCheckpoints但我希望在代码运行完成后删除检查点。有没有我可以使用的spark配置？cleanCheckpoints不是这样做的。如何在代码完成后删除这些检查点文件？最好的方法是什么？

浏览 15提问于2020-04-27得票数 1

3回答

正则表达式删除字符串中的转义斜杠

、

我有一根线有没有人能帮我做一个正则表达式，去掉转义斜杠，只提供字符串？

浏览 0提问于2012-02-16得票数 1

回答已采纳

3回答

如何在任意位置精确匹配字符串中的两个字符

、

如何在字符串中精确匹配两个相同的字符，如“4003”、“1030”。import reif re.search('0{2}',s):但是上面的代码只匹配“1002”，而不匹配“1030”

浏览 1提问于2018-05-17得票数 1

2回答

如果要在python/pyspark中获取数组，则跳过数字跟在字符串后面的拆分

、、、、

我想创建一个基于字符串列的新列，其中包含分隔符(“")，如果后面跟有数字，则跳过拆分，最后使用python/pyspark删除结尾的";”：输入： "511 520 NA 611;""newcolumn", split(col("column"), "\s")) 但是我在数组的末尾得到了一个空字符串，如果存在

浏览 37提问于2021-10-01得票数 1

回答已采纳

2回答

更改数据类型拆分后的星火RDD如何在不更改数据类型的情况下拆分

、、

如何在不更改数据类型的情况下拆分数据，或者如何将拆分的数据转换为原始数据类型？我的代码conf = SparkConf().setMaster("local").setAppName("Movie1,1,4.0,9649827031,6,4.0,9649822241,50,5.0,964982931 将完整数据拆分后的更改为字符</em

浏览 2提问于2020-10-22得票数 0

点击加载更多