如何在spark scala中将映射转换为单独的列？

文章/答案/技术大牛

发布

1回答

将RDD转换为Dataframe Spark

、、、

如何在scala中将具有以下结构的RDD转换为dataframe这里，RDD的每一行都包含一个索引Long和一个向量org.apache.spark.mllib.linalg.Vector。我希望将org.apache.spark

浏览 2提问于2017-02-26得票数 2

2回答

、、

我有一个带有如下值的spark数据帧，我正在努力寻找在输入数据帧中转换为单独列的方法，如Id，Fld1，Fld2。感谢任何帮助或指向相关文档的指针？

浏览 59提问于2021-01-18得票数 0

1回答

在scala dataframe中将字符串列转换为十进制

、、

我有一个dataframe ( scala ) --我在笔记本中同时使用了pyspark和scala。#pysparkimport org.apache.spark.sql.functions._ val df = spark.sql(&quo

浏览 2提问于2020-10-27得票数 0

回答已采纳

2回答

将行值制表为列值

、

在SQL Server中将行值转换为列值我需要在SQL Server中将example Table1转换为Table2。其他解决方案为每个服务器值显示单独的列，导致每个服务器A、B、C和D分别有单独的列。相反，如果B是唯一的服务器，我需要它显示在列Server1中，而不是列ServerB中，如建议的</

浏览 1提问于2016-12-17得票数 1

1回答

Spark dataframe中ListType、MapType、StructType字段的通用处理

、、

如何在Scala中对Spark StructType执行通用处理，如按名称选择字段、遍历映射/列表字段等？在spark dataframe中，我有类型为"ArrayType“的列"instances”，其模式如下： instances[ArrayType]: 0 [ StructType:instances“转换为类型为"totalExperience”的列 deriv

浏览 117提问于2020-07-10得票数 0

1回答

PySpark -当值为"t“和"f”时，如何使用模式读取BooleanType

、、、

我使用StructType定义了一个模式，用于读取Redsfhit中的数据帧。该表具有350+列，其中许多列被配置为布尔值。at scala.collection.immutable.StringOps.toBoolean(StringOps.scala:30) a

浏览 1提问于2017-11-22得票数 3

1回答

如何将数据框中的两列转换为scala中的地图(col1，col2)？

、、

如何在scala中将数据框中的rwo列转换为Map(col1，col2)？case Row(a:String, b: String) => Map(a.asInstanceOf[String] ->b.asInstanceOf[String] )但是我无法从这个映射中获得值

浏览 3提问于2016-09-27得票数 1

1回答

影响preservesPartitioning RDD真/假给出了相同的mapPartitions结果

、、

不错的散文，但它真正意味着什么呢？这里是一个人为的琐碎例子，不管我是否将true或false传递给mapPartitions，对于新的RDD，每个分区的数据分区仍然是相同的，即使我改变了K，V的K值，那么，意义是什么呢？一定是我错过了一些基本的东西。import org.apache.spark.HashPartitionerdef myfunc(iter: Iterator[

浏览 0提问于2020-01-02得票数 2

回答已采纳

2回答

我目前正在使用以下方法来连接dataframe中的列： val Finalraw = raw.withColumn("primarykey", concat($"prod_id",$"frequency",$"fee_type_code")) 但问题是，我不想硬编码列，因为列数每次都在变化。我有一个由列名组成的列表： columnNames: List[String] = List("prod_id", &

浏览 31提问于2019-01-23得票数 0

回答已采纳

1回答

如何将字符串数组改为双精度数组？

、、

error: missing parameter type for expanded function ((x$1) => r.getAs(x$1).toDouble(70).toArray) 如何将字符串的r.getAs(_).toDouble(70).toArray和r.getAs(_).toDouble(76).toArray数组更改为double的array (可以在Vectors.dense函数中使用)？

浏览 0提问于2017-06-28得票数 1

1回答

使用Spark* Scala将SqlServer数据类型转换为Hive数据类型*

、、

Spark用于从SQL server DB中获取表的模式。由于数据类型不匹配，我在使用此模式创建配置单元表时遇到问题。如何在Spark Scala中将SQL Server数据类型转换为Hive数据类型。

浏览 48提问于2019-07-19得票数 1

5回答

当其他列(行)中出现火花列“子字符串”时替换

、、

在Scala中，Spark需要有效地将{0}从Description列替换为State列中可用的值，如输出所示。输入：输出：

浏览 0提问于2020-06-06得票数 1

回答已采纳

1回答

Spark HiveContext获取与配置单元客户端选择相同的格式

、

当配置单元表有像映射或数组这样的值时，如果你在配置单元客户端选择它，它们会显示为JSON，例如：{"a":1,"b":1}或[1,2,2]。在Spark中选择这些对象时，它们是DataFrame中的贴图/数组对象。当我使用Spark的HiveContext时，我想使用与Hive客户端相同的格式。我该怎么做呢？

浏览 1提问于2018-07-20得票数 0

1回答

使用列比例列表进行Spark选择

、

我正在尝试找到一种使用List[ column，我正在分解一个列，而不是用我的分解列传回所有我感兴趣的列]来进行spark select的好方法。var columns = getColumns(x) // Returns a List[Column]试图找到一种好的方法

浏览 0提问于2016-10-07得票数 9

回答已采纳

1回答

DataFrame na()填充方法和不明确引用的问题

、

我使用的是Spark 1.3.1，其中连接两个数据帧会重复连接的列。我在外部连接两个数据帧，希望将结果数据帧发送到na().fill()方法，以便根据列的数据类型将空值转换为已知值。我构建了一个"table.column“-> "value”的映射，并将其传递给fill方法。但我得到的是异常而不是成功:(。我有什么选择？我看到有一个dataFrame.withColumnRenamed方法，

浏览 4提问于2016-02-28得票数 3

1回答

随着数据集和列数的增加，Spark作业的执行时间呈指数级增长

、、

我已经在spark中创建了一个固定宽度的文件导入解析器，并在各种数据集上执行了一些执行测试。它可以很好地工作到1000列，但随着列数和固定宽度长度的增加，Spark作业性能会迅速下降。对于20k列和固定宽度长度超过10万的列，执行时间很长。我发现的类似问题之一：

浏览 1提问于2018-09-15得票数 1

2回答

[Scala][Spark]：转换数据帧中的列，保留其他列，使用withColumn和map [错误:缺少参数类型]

、、、、

, C++]| CA||Robert,,Williams| [CSharp,|CA ||Michael,Rose, |Spark |NJ | .toDF("Name&qu

浏览 11提问于2021-10-11得票数 2

2回答

将拼花文件存储到PostgreSQL数据库中

、、、、

我正在使用Spark并编写文件，我使用的是Spark的write.jdbc函数。对于长、十进制或文本这样的拼花列类型，一切都可以正常工作。问题在于像Map这样的复杂类型。我想将Map作为json存储在我的PostgreSQL中。因为我知道PostgreSQL可以自动将文本数据类型转换为json (使用强制转换操作)，所以我将映射转储到json字符串。但是星火程序抱怨说，我们试图将“字符变化”数据类型

浏览 1提问于2018-04-20得票数 2

回答已采纳

1回答

如何获得使用concat_ws生成的结果的大小？

、、

我正在COL1上执行COL1，并使用concat_ws获取COL2的级联列表。我如何才能在这个列表中得到值的计数？这是我的密码： .concat_ws(",",org.apache.spark.sql.functions.collect_list

浏览 3提问于2017-11-27得票数 2

回答已采纳

1回答

用Java将Seq<String>转换为Seq<Column>的更好方法

、、

在Java中使用Spark时，我们通常必须依赖Scala类型。特别是，我发现我经常需要从Strings的Scala转换为列的Scala。在Scala中，这很容易。我一直依赖于从Scala到java的转换，执行映射，然后再转换回Scala，如下所示： Seq<Column> seqOfColumns = asScalaBuffer(seqAsJavaLi

浏览 3提问于2021-07-23得票数 1

回答已采纳

点击加载更多

将RDD转换为Dataframe Spark