首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >Spark:将字符串列转换为数组

Spark:将字符串列转换为数组
EN

Stack Overflow用户
提问于 2017-06-22 12:31:01
回答 3查看 44.4K关注 0票数 20

如何将作为字符串读取的列转换为数组列?即从下面的模式转换

代码语言:javascript
运行
复制
scala> test.printSchema
root
 |-- a: long (nullable = true)
 |-- b: string (nullable = true)

+---+---+
|  a|  b|
+---+---+
|  1|2,3|
+---+---+
|  2|4,5|
+---+---+

至:

代码语言:javascript
运行
复制
scala> test1.printSchema
root
 |-- a: long (nullable = true)
 |-- b: array (nullable = true)
 |    |-- element: long (containsNull = true)

+---+-----+
|  a|  b  |
+---+-----+
|  1|[2,3]|
+---+-----+
|  2|[4,5]|
+---+-----+

如果可能,请同时共享scala和python实现。另外,我如何在读取文件本身的同时处理它呢?我有大约450列的数据,其中有几列我想以这种格式指定。目前我正在阅读pyspark,如下所示:

代码语言:javascript
运行
复制
df = spark.read.format('com.databricks.spark.csv').options(
    header='true', inferschema='true', delimiter='|').load(input_file)

谢谢。

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2017-06-22 12:40:37

有各种方法,

最好的方法是使用split函数并转换为array<long>

代码语言:javascript
运行
复制
data.withColumn("b", split(col("b"), ",").cast("array<long>"))

您还可以创建简单的udf来转换值

代码语言:javascript
运行
复制
val tolong = udf((value : String) => value.split(",").map(_.toLong))

data.withColumn("newB", tolong(data("b"))).show

希望这能有所帮助!

票数 22
EN

Stack Overflow用户

发布于 2017-06-22 12:47:37

使用UDF将为您提供所需的确切模式。如下所示:

代码语言:javascript
运行
复制
val toArray = udf((b: String) => b.split(",").map(_.toLong))

val test1 = test.withColumn("b", toArray(col("b")))

它将为您提供如下模式:

代码语言:javascript
运行
复制
scala> test1.printSchema
root
 |-- a: long (nullable = true)
 |-- b: array (nullable = true)
 |    |-- element: long (containsNull = true)

+---+-----+
|  a|  b  |
+---+-----+
|  1|[2,3]|
+---+-----+
|  2|[4,5]|
+---+-----+

就将模式应用于文件读取本身而言,我认为这是一项艰巨的任务。因此,现在您可以在创建testDataFrameReader之后应用转换。

我希望这能帮到你!

票数 2
EN

Stack Overflow用户

发布于 2018-04-25 00:30:13

在python (pyspark)中,它将是:

代码语言:javascript
运行
复制
from pyspark.sql.types import *
from pyspark.sql.functions import col, split
test = test.withColumn(
        "b",
        split(col("b"), ",\s*").cast("array<int>").alias("ev")
 )
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/44690174

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档