如何在Spark2.3中使用map_from_arrays()

在Spark 2.3中，map_from_arrays()函数可以用来创建一个包含键值对的新列，其中键和值可以从给定的数组中提取。该函数接受两个数组作为参数，一个用于键，另一个用于值。以下是在Spark 2.3中使用map_from_arrays()的详细步骤：

步骤1：导入必要的类和方法首先，我们需要导入Spark SQL中的函数和类型，以及SparkSession对象。可以使用以下代码导入所需的类和方法：

from pyspark.sql import SparkSession
from pyspark.sql.functions import map_from_arrays
from pyspark.sql.types import *

步骤2：创建SparkSession 接下来，我们需要创建一个SparkSession对象。可以使用以下代码创建SparkSession：

spark = SparkSession.builder.appName("map_from_arrays_example").getOrCreate()

步骤3：创建示例数据为了演示map_from_arrays()的使用，我们首先需要创建一些示例数据。假设我们有两个数组，一个数组包含键，另一个数组包含相应的值。可以使用以下代码创建示例数据：

key_array = ["key1", "key2", "key3"]
value_array = ["value1", "value2", "value3"]
data = [(key_array, value_array)]

步骤4：创建DataFrame 将示例数据转换为DataFrame，可以使用以下代码：

schema = StructType([StructField("keys", ArrayType(StringType())), StructField("values", ArrayType(StringType()))])
df = spark.createDataFrame(data, schema)

步骤5：使用map_from_arrays()创建新列现在，我们可以使用map_from_arrays()函数创建一个新列，其中键和值从DataFrame的两个数组列中提取。可以使用以下代码完成此操作：

df_with_map = df.withColumn("key_value_map", map_from_arrays(df["keys"], df["values"]))

步骤6：查看结果最后，我们可以查看包含键值对的新列。可以使用以下代码查看结果：

df_with_map.show(truncate=False)

这将打印出DataFrame的内容，其中包含一个名为"key_value_map"的新列，该列包含从键和值数组中提取的键值对。

以上是在Spark 2.3中使用map_from_arrays()函数的完整步骤。关于腾讯云相关产品和产品介绍链接地址，可以参考腾讯云官方文档：https://cloud.tencent.com/document/product/Spark2.3-2.4

如何在Spark2.3中使用map_from_arrays()

我在Spark 2.3中有以下来自JSON文件的Dataframe： root | |-- element: structcontainsNull = true) | | |-- value: string (nullable = true) 我在Spark2.4中看到，map_from_arrays()可能会这样做。我如何在Spark 2.3中实现这一

浏览 96提问于2021-05-09得票数 0

1回答

读取csv文件的multiLine选项不适用于具有新行闪烁2.3和闪烁2.2的记录。

、、、

我正在尝试使用pyspark读取器读取dat文件，它包含换行符("\n")作为数据的一部分。Spark无法将此文件读入单个列，而只能将其视为新行。我试着在阅读时使用"multiLine“选项，但它仍然不起作用。这里$是CRLF的换行符，如vim所示。如何在火花放电中读取这些数据。在spark2.2和spark2.3两种版本中都尝试了这一点。

浏览 0提问于2018-04-02得票数 1

回答已采纳

1回答

如何在SparkR 2.2中进行广播

、、

我在SparkR 2.2中找不到有关广播的信息。语法广播(sc，object)是针对旧版本的。谢谢

浏览 12提问于2018-01-24得票数 0

1回答

编写涉及复杂类型的Spark-SQL查询

、

我们使用Spark-SQL主要用于ETL的数据转换/操作。最近，我偶然发现了一些用于操作星火复杂类型的SparkSQL函数(array、map、struct等)。我遇到了某些函数，如array()、array_zip()、struct()、map_concat()、map_from_arrays()等。请任何人提供一些它的应用程序的例子，这样我就能更好地理解它们在我们的项目任务中的应用。谢谢

浏览 1提问于2020-05-31得票数 0

2回答

Spark :移除映射列的关键字

、、、

我有一个包含有3个键的映射列userInfo的dataset ds：现在，我希望在我的新数据集中也有这个地图列(例如dsNew = ds.withColumn(...))，但删除了键“dsNew”。要做到这一点，最佳的性能方法是什么？谢谢。

浏览 4提问于2021-03-09得票数 0

2回答

火花数据的分区数？

、、、、

我有一个(Spark2.3)，它存储一个没有记录的sql。当我试图计算分区数时，它没有显示任何结果，而是尝试了各种函数，如df.rdd.getNumPartitions / df.rdd.getNumPartitions()/ df.rdd.length /如何从具有零记录或数百万记录的星火数据中获取分区数？

浏览 8提问于2020-06-15得票数 2

回答已采纳

1回答

在提交Apache Spark作业时在spark.jars中使用通配符

Spark2.3的文档中说spark.jars就是这样的参数： spark.jars: Comma-separated list of jars to include on the driver and如何在spark.jars中使用glob，如文档所示

浏览 0提问于2018-05-08得票数 9

1回答

spark编写的拼图文件中的Athena/Hive时间戳

、、、、

在使用hive时，我们遇到了时间戳问题。org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat' 's3://test/' Select查询失败，出现以下问题: HIVE_BAD_DATA: Field word的类型BINARY与表架构中定义的类型

浏览 0提问于2018-06-06得票数 3

1回答

如何在使用submit命令时修复Logger错误的初始化

、、、

org.apache.spark.internal.Logging$class.initializeLogIfNecessary(Logging.scala:99)中线程"main“java.lang.AbstractMethodError中的异常我使用Scala2.11并使用相同的版本。无法通过IDE调试此问题，因为这一切都很好，但当我运行火花提交时，就会发生错误。

浏览 1提问于2019-03-28得票数 0

回答已采纳

2回答

pyspark: Spark2.3中的arrays_zip等价物

、、、

如何在Spark2.3中编写arrays_zip的等效函数？_jvm.functions.arrays_zip(_to_seq(sc, cols, _to_java_column))) 如何在PySpark中实现类似的功能？

浏览 4提问于2020-04-29得票数 7

3回答

我有两个类型为Integer和Map的列，我想知道更新map列所有键的值的最佳方法。def modifyValues = (map_data: Map[String, Int]) => { map_data.mapValues( _ / divideWith)val modifyMapValues = udf(modifyValues) df.withColumn("updatedValues", modifyMapValues($"data_ma

浏览 0提问于2019-09-05得票数 4

回答已采纳

1回答

Apache Spark 2.3.0 -如何将两个array<string>合并成一个array<string>

、、

将两个array<string>合并成一个array<string>在2.4.x版本中是可能的，也很容易，但在2.3.0版本中找不到这样做的方法。输入-预期输出-有人能解释一下如何使用Java在Spark中实现这一点吗？

浏览 9提问于2021-09-22得票数 1

2回答

SparkSQL :如何在从数据库加载数据集时指定分区列

、

我正在使用Spark2.3，并使用jdbc从MySQL加载数据，如下所示 .read ,"driver" -> driver .load() 我想根据表中的特定列对数据集进行分区

浏览 0提问于2018-12-26得票数 3

1回答

在PySpark并行化执行上下文中使用JAR依赖项

、、、、

这是针对PySpark / Databricks项目的：我已经编写了一个Scala JAR库，并通过一个简单的Python包装器将其函数公开为UDF；在我的PySpark笔记本中，一切工作正常。但是，当我尝试在sc.parallelize(..).foreach(..)环境中使用从JAR导入的任何函数时，执行都会死掉，并显示以下错误： TypeError: 'JavaPackage' objectis not callable 在包装器中的这一行： jc = get_spark().使用sc

浏览 19提问于2019-04-02得票数 2

1回答

如何计算流数据集中数组字段中的元素数(一个除外)？

、、

我使用星火2.1.0.Cloudera 1。在流数据中有一个数组，数组中的数据如下所示：我需要这个数组的大小，不包括"WindowsFROMJOINON(a.cluster_id = c.cluster_id) 但是对于我的用

浏览 1提问于2019-11-20得票数 2

回答已采纳

3回答

用字典参数激发UDF失败

、、

An“，第323行，在get_return_value py4j.protocol.Py4JError中:调用z:org.apache.spark.sql.function s.col时出错。

浏览 2提问于2019-07-15得票数 3

回答已采纳

2回答

正在将pyspark dataframe转换为字典:结果与预期不同

、、、、

假设我有以下pyspark数据帧： data = [("USA",20,40,60), ("Nepal",20,50,30), ("Norway",50,50,60) df = spark.createDataFrame(data=data,sche

浏览 32提问于2021-01-19得票数 0

回答已采纳

1回答

星星之火SQL:时间窗口聚合

、

. |我尝试使用窗口如何解释，所以我将Unix时间戳转换为TimestampType格式的HH:mm:ss。

浏览 0提问于2018-05-18得票数 4

回答已采纳

1回答

StringIndexerModel inputCol

、、、、

我有一个带有spark 2.1的集群和一个进程，它在文件PipelineModel上写入，文件中包含一个StringIndexerModel。特别是，使用spark 2.1，字段inputCol似乎不存在，即使显然需要它来使StringIndexer工作。这就是我得到的。是否有一种方法可以用inputCol提取spark 2.1中的PySpark？

浏览 0提问于2018-10-25得票数 1

回答已采纳

2回答