Loading [MathJax]/jax/output/CommonHTML/config.js

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >Spark:将字符串列转换为数组

问Spark:将字符串列转换为数组
EN

Stack Overflow用户

提问于 2017-06-22 04:31:01

回答 3查看 44.4K关注 0票数 20

如何将作为字符串读取的列转换为数组列？即从下面的模式转换

scala> test.printSchema
root
 |-- a: long (nullable = true)
 |-- b: string (nullable = true)

+---+---+
|  a|  b|
+---+---+
|  1|2,3|
+---+---+
|  2|4,5|
+---+---+

至：

scala> test1.printSchema
root
 |-- a: long (nullable = true)
 |-- b: array (nullable = true)
 |    |-- element: long (containsNull = true)

+---+-----+
|  a|  b  |
+---+-----+
|  1|[2,3]|
+---+-----+
|  2|[4,5]|
+---+-----+

如果可能，请同时共享scala和python实现。另外，我如何在读取文件本身的同时处理它呢？我有大约450列的数据，其中有几列我想以这种格式指定。目前我正在阅读pyspark，如下所示：

df = spark.read.format('com.databricks.spark.csv').options(
    header='true', inferschema='true', delimiter='|').load(input_file)

谢谢。

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2017-06-22 04:40:37

有各种方法，

最好的方法是使用split函数并转换为array<long>

data.withColumn("b", split(col("b"), ",").cast("array<long>"))

您还可以创建简单的udf来转换值

val tolong = udf((value : String) => value.split(",").map(_.toLong))

data.withColumn("newB", tolong(data("b"))).show

希望这能有所帮助！

票数 22

EN

Stack Overflow用户

发布于 2017-06-22 04:47:37

使用UDF将为您提供所需的确切模式。如下所示：

val toArray = udf((b: String) => b.split(",").map(_.toLong))

val test1 = test.withColumn("b", toArray(col("b")))

它将为您提供如下模式：

scala> test1.printSchema
root
 |-- a: long (nullable = true)
 |-- b: array (nullable = true)
 |    |-- element: long (containsNull = true)

+---+-----+
|  a|  b  |
+---+-----+
|  1|[2,3]|
+---+-----+
|  2|[4,5]|
+---+-----+

就将模式应用于文件读取本身而言，我认为这是一项艰巨的任务。因此，现在您可以在创建test的DataFrameReader之后应用转换。

我希望这能帮到你!

票数 2

EN

Stack Overflow用户

发布于 2018-04-24 16:30:13

在python (pyspark)中，它将是：

from pyspark.sql.types import *
from pyspark.sql.functions import col, split
test = test.withColumn(
        "b",
        split(col("b"), ",\s*").cast("array<int>").alias("ev")
 )

票数 1

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/44690174

复制

相关文章

为什么 strace 在 Docker 中不起作用？

容器镜像服务容器 linux 数据分析

在编辑“容器如何工作”爱好者杂志的能力页面时，我想试着解释一下为什么 strace 在 Docker 容器中无法工作。

用户8639654

2021/09/18

6.4K0

在bootstrap中col-md-offset-* 偏移不起作用

node.js bootstrap

在bootstrap中，使用col-md-offset-1、col-md-offset-2、col-md-offset-3、col-md-offset-4等来设置偏移量很常见，但最近就遇到一个问题了，在最新版的bootstrap4.5中，这个值不起作用了。

kirin

2020/10/27

12.6K1

黄聪：在C#中如何使用资源中的图片

image picturebox

6.设置Image属性,选择资源中的_1文件即可,这样我们就能使用资源里面的图片啦 ^^

全栈程序员站长

2021/12/23

4.1K0

黄聪：在C#中如何使用资源中的图片

List.append() 在 Python 中不起作用，该怎么解决？

Python 是一种强大而灵活的编程语言，它提供了许多方便的数据结构和操作方法，其中之一就是列表（List）。列表是一个有序的集合，可以包含不同类型的元素，并且可以进行添加、删除和修改等操作。在 Python 中，我们通常使用 List.append() 方法向列表末尾添加元素。然而，在某些情况下，你可能会遇到 List.append() 方法不起作用的问题。本文将详细讨论这个问题并提供解决方法。

网络技术联盟站

2023/06/01

2.8K0

在C#中ref和out具体怎么使用？在什么情况下使用?

ref是传递参数的地址，out是返回值，两者有一定的相同之处，不过也有不同点。　　使用ref前必须对变量赋值，out不用。　　out的函数会清空变量，即使变量已经赋值也不行，退出函数时所有out引用的变量都要赋值，ref引用的可以修改，也可以不修改。　　区别可以参看下面的代码应该就明白了：

zls365

2020/08/19

2.8K0

flash在C#中的应用

flash 编程算法 windows

很多光盘上的程序，比如电脑迷光盘，开头总有一段动画，用来展现企业品牌和LOGO之用。这个动画是Flash做的，而且嵌入到程序中简直做到无缝融合，因为右键点击它也不会有那特有而烦人的Flash右键菜单。

SAP梦心

2022/05/07

1.8K0

C# 枚举在属性中运用

//默认ZFLText属性值为"Label" [DefaultValue(typeof(DisplayMode), "Label")] public DisplayMode ZFLText { get; set; } [Serializable] public enum DisplayMode { /// <summary> /// 显示文本 /// </summary> Label,

跟着阿笨一起玩NET

2018/09/18

2.3K0

在c#中创建Windows服务

Windows服务通常在操作系统OS启动并在后台运行应用程序时启动。Windows服务在自己的会话中执行应用程序。它可以自动启动，也可以手动暂停、停止和重新启动。

程序你好

2018/07/23

4.2K0

在C#中面向抽象编程

c#腾讯云开发者社区 uml

“面向抽象编程”在面向对象语言中是非常关键的一个概念和方法。本系列文档将结合实际用例，让读者体会到在使用C#语言时，如何良好的运用这个概念和方法来编写可维护性更好的代码。

newbe36524

2020/03/16

1K0

防止在C#中滥用接口

tcp/ip 编程算法

在设计应用程序时，通常需要使用接口和抽象类。本文讨论了一些常见的“接口滥用”的例子以及我们可以用来避免它们的策略。它还讨论了“编程到接口而不是实现”这一信条的含义

zls365

2021/04/23

1.4K0

C# SQLite在C#中的安装与操作

数据库 sqlite sql android html

先说说优点，它占用资源非常的低，在嵌入式设备中需要几百K的内存就够了；作为轻量级数据库，他的处理速度也足够快；支持的的容量级别为T级；独立: 没有额外依赖；开源；支持多种语言；

zls365

2022/01/14

2.8K0

C# SQLite在C#中的安装与操作

在C#中使用依赖注入

编程算法 c#腾讯云开发者社区

依赖注入（Dependency Injection，缩写为DI）是一种实现（Inversion of Control，缩写为IoC）的方法。在编写C#代码时，使用这种方法能够解决一些场景的需求。本系列将通过若干个实际问题，向读者介绍如何在C#中使用依赖注入。

newbe36524

2020/03/16

1.6K0

Vue 中使用 JQuery 插件不起作用

jquery 编程算法 vue.js

有时候在 vue 的代码中使用 jQuery 会不起作用，这是因为 vue 还没有绑定变量，所以我们使用的 jQuery 根本就找不到目标变量，就不会执行，正确的做法是先设置一个时延，稍微等一等 vue 的加载。

wsuo

2020/10/26

2.3K0

[常见问题]在Linux下执行Redis命令不起作用.

linux 云数据库 Redis®

redis 127.0.0.1:6379> 这个后面无论输入什么命令都没有返回 ok 或者其他的信息，一直保持截图的状态: 解决方法: 在SecureCRT中设置Options-->SessionO

一枝花算不算浪漫

2018/05/18

1.9K0

C#中如何使用Dapper

编程算法 sql

Dapper是.NET下轻量级ORM，和Entity Framework或Nhibnate不同，它是半自动化的。Dapper它只有一个代码文件，并且完全开源。我们可以将它放在项目的任何位置来实现数据到对象的ORM操作，它具备体积小且速度快的特点。使用ORM的好处是增、删、改会很快，不用自己写sql语句，并且程序中大量的从数据库中读数据然后创建model,并为model字段赋值，这些ORM都可以替我们完成。ORM给开发带来便利的同时，性能也是一个不得不考虑的问题。一般ORM的性能和原生sql相比性能都差了不少，但Dapper性能还不错，与DbHelperSQL相比性能高出很多。

喵叔

2021/12/19

1.3K0

在C#中ParameterizedThreadStart和ThreadStart区别

不需要传递参数,也不需要返回参数　　我们知道启动一个线程最直观的办法是使用Thread类,具体步骤如下： ThreadStart threadStart=new ThreadStart(Calculate); Thread thread=new Thread(threadStart); thread.Start(); public void Calculate() { 　double Diameter=0.5; 　Console.Write("The Area Of

跟着阿笨一起玩NET

2018/09/18

1.3K0

在C#中ParameterizedThreadStart和ThreadStart区别

java https 网络安全

上面我们用定义了一个ThreadStart类型的委托 , 这个委托制定了线程需要执行的方法: Calculate,在这个方法里计算了一个直径为0.5的圆的周长,并输出.这就构成了最简单的多线程的例子,在很多情况下这就够用了,然后 ThreadStart这个委托定义为void ThreadStart(),也就是说,所执行的方法不能有参数,这显然是个很大的不足,为了弥补这个缺陷,聪明的程序员想出了许多好的方法,我们将在需要传递多个参数一节中进行介绍,这里我们先介绍.Net为了解决这个问题而设定的另外一个委托:就是ParameterizedThreadStart

全栈程序员站长

2022/09/14

6610

C#中的深复制和浅复制（在C#中克隆对象）

c#变量对象继承内存

C# 支持两种类型：“值类型”和“引用类型”。值类型（Value Type)（如 char、int 和 float）、枚举类型和结构类型。引用类型(Reference Type) 包括类 (Class) 类型、接口类型、委托类型和数组类型。

立羽

2023/08/24

8030

在 C# 9 中使用 foreach 扩展

c#foreach 遍历对象树形结构

在 C# 9 中，foreach 循环可以使用扩展方法。在本文中，我们将通过例子回顾 C# 9 中如何扩展 foreach 循环。

newbe36524

2023/08/23

1300

点击加载更多

相似问题

尝试在Visual Microsoft.Kinect C#中使用C#命名空间

15

在Kinect2.0中找不到Microsoft.Kinect

10

将microsoft.kinect添加到XBOX项目时出错

11

If语句在C#中不起作用

30

folderBrowserDialog在c#中不起作用

34

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例