分解pyspark中的Maptype列

文章/答案/技术大牛

发布

1回答

、、、

我有一个这样的数据帧 data = [(("ID1", {'A': 1, 'B': 2}))]df.showColl: map (nullable = true) | |-- value: long (valueContainsNull = true) 我想要分解“Coll”列，以便 +---

浏览 20提问于2019-03-07得票数 2

回答已采纳

2回答

有没有办法在Pyspark中动态猜测模式？

、、、、

我尝试为其中几个定义了Struct模式，如下所示- from pyspark.sql.types import StructType,StructField, StringType display(dfJSON) 但这不是一种好的方法有没有一种方法可以处理所有这样<em

浏览 23提问于2021-10-02得票数 3

回答已采纳

1回答

如何分解pyspark dataframe中的map类型？

、、

我有一个数据帧 import os, sysimport pyodbc from pyspark.sql.functions import explode, col, from_json, litfrom pyspark.sql import Sp

浏览 28提问于2020-10-06得票数 0

回答已采纳

1回答

如何创建类型化的空MapType？

、、、

我有一个要匹配的数据帧模式，它有一个MapType(StringType(), StringType())类型的列。我尝试了以下实现(使用Spark 2.2.1)：from pyspark.sql.types import * df = spark.createDataFrame("map2", fx.create_map().cast(MapType(StringType()

浏览 0提问于2018-07-19得票数 2

1回答

具有列表数据类型的列: Spark HiveContext

、、

下面的代码聚合并创建一个数据类型为list的列： "column_name_1" expr("collect_list(column_name_2) " ) 因此，似乎可以将“list”作为dataframe中的列数据类型。我想知道我是否可以写一个返回自定义数据类

浏览 2提问于2016-07-15得票数 0

1回答

当同一个数据帧在pyspark内部重复时发生堆栈溢出错误。

、

当在循环中重复相同的数据时，就会发生堆栈溢出错误。数据量仅为40k记录。在单节点14 is /28 is时，尝试使用集群大小。

浏览 8提问于2022-06-07得票数 0

2回答

从火花表中提取json的值会导致SyntaxError错误，或者keyType应该是DataType错误。

、、、、

假设我在下面有这样的数据org：123|{"inn":"123”, "prof": "tkie"}org.withColumn('inn', from_json($"raw", MapType(StringType, StringType))).withColumn('inn', col('sea

浏览 14提问于2021-12-27得票数 0

回答已采纳

1回答

更新Pyspark中映射类型列的结构化值

、、、、

我试图修改Map类型的Dataframe列，其值依次为Struct类型： |-- name: string (nullable = true)from pyspark.sql import SparkSession, DataFrame from pyspark.sql.functions import col, udf,u

浏览 3提问于2021-01-04得票数 3

回答已采纳

2回答

从pyspark中的列表中提取列

、、、

我一直在尝试从列表中提取列，但无法想象如何做到这一点。我对spark来说还是个新手。在Spark 2.4.3上运行pyspark。我有一个像这样组织的json： { "meta" : { ... }, [[ "a", 0, null, "{ }"],

浏览 53提问于2020-12-18得票数 1

回答已采纳

1回答

Spark DataFrame ArrayType或MapType用于检查列中的值

、、、、

我有一个，其中一列是is列表。例如，我想获取其中包含特定ID的行数。但是，要使用映射，我需要使用自定义udf而不是内置(scala)函数array_contains进行筛选。有了MapType，我可以做到： from pyspark.sql.types impo

浏览 1提问于2018-10-30得票数 2

回答已采纳

1回答

如何将map<string，string>转换为map<string，timestamp> PySpark？

、、、、

我有一个名为matchtimes的列，我想将它转换为map<string，timestamp>## Convert aStructType to MapType column : ## Useful when you want to move all Dynamic Fields of a Schema withina StructType column into a single MapType Column.from <em

浏览 7提问于2022-07-14得票数 0

3回答

如何在MapType中过滤PySpark中的密钥？

、、

给定如下所示的DataFrame，是否可以在保持模式完整的同时过滤出PySpark中列集合的一些键(MapType(StringType，StringType，True))？

浏览 3提问于2017-06-22得票数 4

回答已采纳

1回答

在pyspark中展开map类型的数组

、

我有一个类型为ArrayType(MapType(StringType，StringType))的列，我希望以这样的方式展开，即映射类型中的键变成列名，而它的值(Maptype)变成列的值。，内容长度-> 70，连接->关闭，Server -> Jetty(9.4.24.v20191120)，body -> 3c68313e426164204d65737361676520] 这是一个具有<em

浏览 13提问于2022-02-07得票数 0

1回答

MapType :从现有列创建pyspark列

、、

我需要在现有列的基础上创建一个新的Spark DF MapType列，其中列名称是键，值是值。----------+|d23d|[1.5,2.0,2.2]|+----+-------------++----+-------------------------+ | key|

浏览 2提问于2016-12-23得票数 21

回答已采纳

1回答

PySpark比较空地图文字

、、、

我想在PySpark DataFrame中删除行，其中某个列包含一个空映射。我该怎么做？我似乎不能声明一个类型化的空MapType来比较我的列。我已经看到，在Scala中，您可以使用typedLit，但是在PySpark中似乎没有类似的东西。我还尝试过使用lit(...)并将其转换为struct<string,int>，但我没有为lit()找到可接受的参数(尝试使用返回null的

浏览 2提问于2019-09-29得票数 2

回答已采纳

2回答

将具有数组形状的字符串的pyspark* databricks数据框转换为标准列*

、、

我有一个databricks数据框架，里面有大量的问卷结果，df上的问卷长度各不相同，问题也并不总是相同。如何从字符串字段Responses中获取问题和答案，这样我就有了一个包含3列的"CustomerID, Questions, Answers"列表因此，从这里开始 CustomerID Responses

浏览 7提问于2021-09-22得票数 0

回答已采纳

2回答

在群内创建字典

、

在groupBy.agg()中创建字典是可能的吗？下面是一个玩具示例：from pyspark.sql import Rowspark = pyspark.sql.SparkSession(sc) Row(id=1, key=

浏览 0提问于2019-03-22得票数 6

1回答

正在读取Pyspark代码中的嵌套Json文件。pyspark.sql.utils.AnalysisException：

、、

我正在尝试读取嵌套的JSON文件。我无法分解嵌套列并正确读取JSON文件。import * from pyspark.sql.functions import * from pyspark.sql import functions as F from pyspark.sql.functionsdf.show() df.printSchema() df.withColumn("Department", explode(col("Department&

浏览 174提问于2021-07-09得票数 0

1回答

用Spark的from_json解析任意JSON

、

{"name": "sarah", "profession": "scientist"}, "ghi": {"name": "matt", "profession": "doctor"}} value列包含如您所见，每个JSON blob本身的形式为{A:B}，其中A是一个随机/任意字符串，B是一个格式相对良好的JSON对象。)或MapType<

浏览 2提问于2018-05-14得票数 4

1回答

将具有字符串json字符串的列转换为带有字典的列

、、

在我的dataframe中有一个具有如下结构的列。.|only showing top 5 rowsfrom pyspark.sql.types import <e

浏览 2提问于2020-05-29得票数 1

回答已采纳

点击加载更多