如何将作为字符串读取的列转换为数组列?即从下面的模式转换
scala> test.printSchema
root
|-- a: long (nullable = true)
|-- b: string (nullable = true)
+---+---+
| a| b|
+---+---+
| 1|2,3|
+---+---+
| 2|4,5|
+---+---+
至:
scala> test1.printSchema
root
|-- a: long (nullable = true)
|-- b: array (nullable = true)
| |-- element: long (containsNull = true)
+---+-----+
| a| b |
+---+-----+
| 1|[2,3]|
+---+-----+
| 2|[4,5]|
+---+-----+
如果可能,请同时共享scala和python实现。另外,我如何在读取文件本身的同时处理它呢?我有大约450列的数据,其中有几列我想以这种格式指定。目前我正在阅读pyspark,如下所示:
df = spark.read.format('com.databricks.spark.csv').options(
header='true', inferschema='true', delimiter='|').load(input_file)
谢谢。
发布于 2017-06-22 04:40:37
有各种方法,
最好的方法是使用split
函数并转换为array<long>
data.withColumn("b", split(col("b"), ",").cast("array<long>"))
您还可以创建简单的udf来转换值
val tolong = udf((value : String) => value.split(",").map(_.toLong))
data.withColumn("newB", tolong(data("b"))).show
希望这能有所帮助!
发布于 2017-06-22 04:47:37
使用UDF将为您提供所需的确切模式。如下所示:
val toArray = udf((b: String) => b.split(",").map(_.toLong))
val test1 = test.withColumn("b", toArray(col("b")))
它将为您提供如下模式:
scala> test1.printSchema
root
|-- a: long (nullable = true)
|-- b: array (nullable = true)
| |-- element: long (containsNull = true)
+---+-----+
| a| b |
+---+-----+
| 1|[2,3]|
+---+-----+
| 2|[4,5]|
+---+-----+
就将模式应用于文件读取本身而言,我认为这是一项艰巨的任务。因此,现在您可以在创建test
的DataFrameReader
之后应用转换。
我希望这能帮到你!
发布于 2018-04-24 16:30:13
在python (pyspark)中,它将是:
from pyspark.sql.types import *
from pyspark.sql.functions import col, split
test = test.withColumn(
"b",
split(col("b"), ",\s*").cast("array<int>").alias("ev")
)
https://stackoverflow.com/questions/44690174
复制相似问题