在Spark dataframe(scala)中保存映射值时出错-预期列，实际映射[int，string]

文章/答案/技术大牛

发布

1回答

、、、

我在Mapint中有键值对，string。我需要使用spark dataframe将该值保存在Hive表中。但是我得到了错误- Expected column, actual Map[int,string] 代码： val dbValuePairs = Array(2019,10) val dbkey = dbValuePairs.map(x => x).zipWithIndex.map(t => (t._2, t._1)

浏览 6提问于2020-10-11得票数 0

回答已采纳

1回答

DataFrame na()填充方法和不明确引用的问题

、

我使用的是Spark 1.3.1，其中连接两个数据帧会重复连接的列。我在外部连接两个数据帧，希望将结果数据帧发送到na().fill()方法，以便根据列的数据类型将空值转换为已知值。我是否只需要确保存在一组惟一的列名，而不管我应用na().fill()方法的dataFrame中的表别名是什么？给定： scala> val df1 = sqlContext.jsonFile("people.json").as(

浏览 4提问于2016-02-28得票数 3

1回答

Pyspark添加类型字符串的空文字映射

、

类似于，我想向我的DataFrame添加一个列，它只包含一个空映射。然而，如果我使用该问题的建议答案，则地图的类型是<null,null>，与在那里发布的答案不同。,string>地图。我可以在Scala中这样做：spark.range(1).withColumn("test", typedLit我<e

浏览 3提问于2021-12-09得票数 3

回答已采纳

1回答

spark.sql.functions.typedLit支持Map[String，任意]吗？

、、、

我有一个Map[String, String]类型的映射，我想在另一个Map[String, Any]类型的map2中追加它。稍后，这个map2将作为一个列添加到dataframe中。当我尝试使用map2作为列添加spark.sql.functions.typedLit时，它失败时会出错： Unsupported literal type class scala.

浏览 6提问于2022-01-06得票数 1

2回答

数据库Azure广播变量不可串行化

、、

这只是为了乱搞，所以这个例子有点做作，但是我无法在RDD映射调用中得到一个值，除非它是一个静态常量值。下面是一个使用int的简单示例，我广播了它，然后尝试并在RDD映射中使用。字段的简单可序列化的单例对象，然后在RDD映射中尝试使用该对象。]，然后尝试在RDD映射中使用该元素。正如您所看到的，这指向了RDD映射值不可序列化的问题。我看不出这个问题，我认为<em

浏览 0提问于2018-04-26得票数 1

回答已采纳

2回答

为什么$不能处理String类型的值(并且只直接处理字符串文本)？

、、

" val Date = "Date"} 然后，我想按列对

浏览 2提问于2018-01-11得票数 2

回答已采纳

1回答

Spark HiveContext获取与配置单元客户端选择相同的格式

、

当配置单元表有像映射或数组这样的值时，如果你在配置单元客户端选择它，它们会显示为JSON，例如：{"a":1,"b":1}或[1,2,2]。在Spark中选择这些对象时，它们是DataFrame中的贴图/数组对象。当我使用Spark的HiveContext时，我想使用与Hive客户端相同的格式。我该怎么做呢？

浏览 1提问于2018-07-20得票数 0

1回答

Spark DataFrame ArrayType或MapType用于检查列中的值

、、、、

我有一个，其中一列是is列表。例如，我想获取其中包含特定ID的行数。但是，要使用映射，我需要使用自定义udf而不是内置(scala)函数array_contains进行筛选。MapType，我可以做到：from

浏览 1提问于2018-10-30得票数 2

回答已采纳

3回答

为什么下面这行代码在spark中失败了，我该如何修复它？

、

=> if(i % 2 == 0) Some(i) else null)).toDF()java.lang.ClassCastException: org.apache.spark.sql.types.IntegerType$ cannot be cast to org.apache.spark.sql.types.StructType at org.apache.spark.sql.SQLContext.createDataFrame(SQLContext.scala:41

浏览 0提问于2019-05-06得票数 0

1回答

Spark Dataframe -编码器

、、、

我是Scala和Spark的新手。我正在尝试使用编码器从Spark中读取一个文件，然后将其转换为java/scala对象。读取文件的第一步就是使用as应用模式和编码。然后，我使用该dataset/dataframe执行一个简单的映射操作，但是如果我尝试在生成的dataset/dataframe上打印模式，它不会打印任何列。此外，当我第一次读取文件时，我没有映射Per

浏览 10提问于2020-08-18得票数 0

1回答

使用case类和列名别名使用反射的Spark Dataframe模式定义

、、、、

我的Spark脚本遇到了一个小问题。基本上，我有原始数据，在分组和计数之后进行聚合，等等，我希望将输出保存为特定的JSON格式。编辑：当我从源dataframe中选择列名有别名的Array[org.apache.spark.sql.Column]数据时，在试图将行映射到case类时使用列名(实际上是索引("Anna"), Result("James&q

浏览 1提问于2016-12-20得票数 3

2回答

如何在Java中实现以下scala代码片段

、、

我正在实现一段代码，用于将多个列动态添加到行中具有空值的Dataframe中 val encoder = RowEncoder.apply(getSchema(df, words= schema.add(wor

浏览 1提问于2019-04-03得票数 0

1回答

Kudu兼容性的火花数据铸造柱

、、、

我试图通过Kudu将Oracle DB中的表复制到具有相同结构的Impala表中。当代码试图将Oracle NUMBER映射到Kudu数据类型时，我会收到一个错误。如何更改星火DataFrame的数据类型，使其与Kudu兼容？我希望Spark+Kudu能自动映射所有数据，只需复制数据即可。相反，Kudu抱怨说它不能映射DecimalType(38,0)。我想指定“名为SOME_COL的第1列(在NUMBER中

浏览 3提问于2019-05-15得票数 0

回答已采纳

1回答

Spark如果使用DataFrameNaFunctions ()创建映射，则来自RDD.collectAsMap的替换函数无法工作。

、、

在DataFrameNaFunctions中，我使用replace函数将数据格式中的列的值替换为Map中的列。但是，当使用RDD.collectAsMap()将数据转换为Map时，由于它不是不可变的映射，所以它不能工作], replacement: <

浏览 4提问于2021-02-24得票数 1

回答已采纳

1回答

将StringType列添加到现有的DataFrame中，然后应用默认值

、、、

(更重要的是，)，这个问题也仅限于向现有的dataframe中添加一个新列，而我需要添加一个列以及数据中所有现有行的值。因此，我希望向现有的DataFrame添加一列，然后将该新列的初始(“默认值”)值应用到所有行。x| y||true|not true|现在，我想在jsonDF中添加一个新字段，在创建

浏览 4提问于2016-10-10得票数 7

回答已采纳

1回答

在Spark中，根据映射表，有没有办法将字符串数组转换为相应的整数数组

、、

在Spark中，根据映射表(String -> Integer)，有没有办法将字符串数组转换为相应的整数数组？例如:在Spark中，有5亿个数组， Array String 1 : ['TOM','White','Black'] Array String 2 : ['BCD','TTTT','Blac

浏览 25提问于2019-09-02得票数 1

4回答

如何将DataFrame映射列转换为结构列？

、、、、

假设我们有一个DataFrame，其列为map类型。-----------+// +--------------------+// +---+---+ &#x

浏览 0提问于2020-06-05得票数 1

回答已采纳

2回答

不使用UDF从dataframe访问scala映射

、、、、

我有一个Spark (版本1.6) Dataframe，我想添加一个包含在Scala中的值的列，这是我的简化代码：valdf2 = df.withColumn("newVal", map(col("key"))) 此代码不工作，显然我收到以下错误，因为映射在接收列时</em

浏览 2提问于2018-05-18得票数 2

回答已采纳

1回答

使用现有列使用Scala添加新列

、

嗨，我想在DataFrame的每一行中添加使用现有列的新列，我在Scala中尝试这样做.df是包含可变列数的dataframe，只能在运行时决定。导入spark.implicits._支持基本类型(Int、String等)和Product (case类)，以便在以后的版本中添加其他类型的序列化支持。方法映射的参数不足：(隐含证据$7: org.a

浏览 2提问于2017-10-09得票数 1

2回答

Spark数据帧分解函数

、

谁能解释一下为什么在有元素集合的dataframe字段分解后会使用case Row，Seq[Row]。另外，您能解释一下为什么asInstanceOf需要从分解字段中获取值吗？employee.map(employee => employee(1).asInstanceOf[String], employee(2).asInst

浏览 2提问于2016-08-24得票数 2

点击加载更多