我正在运行PySpark v1.6.0,我有一列字符串值(根据.printSchema),但是当我尝试根据列值以"[“字符开头或包含",”字符的情况来筛选行时,在这两种情况下,它都表示我希望计算为True的行仍然是False...
当我运行代码时:
col_name = "attempt_params_attempt_response_id"
resultDF.select(col_name, resultDF[col_name].like(",")).show(50)
我得到了:
我不明白这是怎么回事,因为字符串值显然包含一个逗号,所以该行应该返回true
,而不是false
。
类似地,当我尝试将行转换为ArrayType(StringType())
(这是我的最终目标)时,它的行为也就像我的行不包含逗号一样……
当我运行代码时:
from pyspark.sql.types import ArrayType, IntegerType, StringType
col_name = "attempt_params_attempt_response_id"
resultDF.withColumn(col_name,
split(resultDF[col_name], ",\s*")
.cast(ArrayType(StringType()))).select(col_name).show(40)
我得到的结果是:
我想知道是否存在某种奇怪的编码问题,导致字符,
与数据中看起来是,
字符的字符不匹配……但我真的不确定。关于为什么会发生这种情况,以及我如何在不创建多维数组文本的情况下实际执行强制转换,有什么想法吗?
发布于 2018-09-04 08:21:59
在这种情况下你的模式是错误的。like
等同于SQL,就像使用简单的正则表达式一样,所以,
只匹配文字,
。
df = spark.createDataFrame([("[0,2,3]", ), (",", )], ("text", ))
df.withColumn("contains_comma", col("text").like(",")).show()
+-------+--------------+
| text|contains_comma|
+-------+--------------+
|[0,2,3]| false|
| ,| true|
+-------+--------------+
要获得匹配,您应该添加前导和尾随通配符:
df.withColumn("contains_comma", col("text").like("%,%")).show()
# +-------+--------------+
# | text|contains_comma|
# +-------+--------------+
# |[0,2,3]| true|
# | ,| true|
# +-------+--------------+
在第二种情况下,根本没有问题。由于您在,
上拆分,因此第一个项目将包含前导[
df.withColumn("contains_comma", split("text", ",\s*")[0]).show()
+-------+--------------+
| text|contains_comma|
+-------+--------------+
|[0,2,3]| [0|
| ,| |
+-------+--------------+
最后一个尾随的]
。如果不希望它们出现在输出中,则应对其进行剥离,例如使用regexp_replace
split(regexp_replace("text", "^\[|\]$", ""), ",")
https://stackoverflow.com/questions/52157239
复制相似问题