MapType列值上的PySpark杠杆函数

、、

下面是一个数据框架，它代表了我正在尝试实现的目标。但是请注意，我想要利用的函数比这个例子要复杂一点。import pyspark ('1',{1:100,2:200}),('1',{1:100,2:None})] df=spark.createDataFrame(data=arrayData, schema = ['id',&

浏览 7提问于2021-10-22得票数 0

回答已采纳

1回答

当同一个数据帧在pyspark内部重复时发生堆栈溢出错误。

、

当在循环中重复相同的数据时，就会发生堆栈溢出错误。数据量仅为40k记录。在单节点14 is /28 is时，尝试使用集群大小。

浏览 8提问于2022-06-07得票数 0

1回答

Spark DataFrame ArrayType或MapType用于检查列中的值

、、、、

我有一个，其中一列是is列表。例如，我想获取其中包含特定ID的行数。但是，要使用映射，我需要使用自定义udf而不是内置(scala)函数array_contains进行筛选。有了MapType，我可以做到： from pyspark.sql.types import Boolea

浏览 1提问于2018-10-30得票数 2

回答已采纳

1回答

具有列表数据类型的列: Spark HiveContext

、、

下面的代码聚合并创建一个数据类型为list的列： "column_name_1" expr("collect_list(column_name_2) " ) 因此，似乎可以将“list”作为dataframe中的列数据类型。我想知道我是否可以写一个返回自定义数据类型的</e

浏览 2提问于2016-07-15得票数 0

1回答

更新Pyspark中映射类型列的结构化值

、、、、

我试图修改Map类型的Dataframe列，其值依次为Struct类型： |-- name: string (nullable = true)from pyspark.sql import SparkSession, DataFrame from pyspark.sql.functions import c

浏览 3提问于2021-01-04得票数 3

回答已采纳

2回答

从火花表中提取json的值会导致SyntaxError错误，或者keyType应该是DataType错误。

、、、、

假设我在下面有这样的数据org：123|{"inn":"123”, "prof": "tkie"}org.withColumn('inn', from_json($"raw", MapType(StringType, StringType))).withColumn('inn', col(

浏览 14提问于2021-12-27得票数 0

回答已采纳

2回答

在群内创建字典

、

在groupBy.agg()中创建字典是可能的吗？下面是一个玩具示例：from pyspark.sql import Rowspark = pyspark.sql.SparkSession(sc) Row(id=1, key='a'

浏览 0提问于2019-03-22得票数 6

1回答

如何创建类型化的空MapType？

、、、

我有一个要匹配的数据帧模式，它有一个MapType(StringType(), StringType())类型的列。我尝试了以下实现(使用Spark 2.2.1)：from pyspark.sql.types import * df = spark.createDataFrame("map2", fx.create_map().cast(MapType(StringType()

浏览 0提问于2018-07-19得票数 2

1回答

将PySpark类映射字符串拆分为Map对象

、、、

我在PySpark中有一个列，其中包含存储为字符串的字典/类似映射的值。示例值：'{1:'Dogs', 2:'Dogs, Cats, and Fish', 3:'Fish & Turtles'}' '{1:'Pizza'

浏览 1提问于2021-06-16得票数 1

回答已采纳

1回答

将具有字符串json字符串的列转换为带有字典的列

、、

在我的dataframe中有一个具有如下结构的列。.|only showing top 5 rows 列中的数据是一个json字符串。我希望将该列转换为其他类型(map，struct..)。如何使用udf函数完成此操作？我已经创建了这样一个函数，但不知道返回类型应该是什么。我试过StructType和MapType，这都是错误的结果。这是我的密码。im

浏览 2提问于2020-05-29得票数 1

回答已采纳

2回答

在UDF PySpark中从PySpark列中选择值

、、、、

我正在尝试从UDF函数中的MapType列中提取PySpark数据帧的值。下面是PySpark数据文件：|CUSTOMER_ID|col_a |col_b |以下是代码： df_temp=df_temp.withColumn('test',test(F.col('col_a&#x

浏览 9提问于2022-04-19得票数 1

回答已采纳

3回答

将模式数据类型JSON混合到PySpark* DataFrame*

、、

我需要将JSON的列表转换为pySpark DataFrames。JSON都有相同的架构。问题是JSON中dicts的值条目有不同的数据类型。PySpark决定complex-field的架构应为：StructType("complex", ArrayType(MapType(StringType(), LongType()))) ，这将导致非长类型值为空DataType用于嵌套MapTy

浏览 23提问于2022-03-28得票数 0

回答已采纳

1回答

如何将map<string，string>转换为map<string，timestamp> PySpark？

、、、、

我有一个名为matchtimes的列，我想将它转换为map<string，timestamp>## Convert aStructType to MapType column : ## Useful when you want to move all Dynamic Fields of a Schema withina StructType column into a single MapType Column.from <em

浏览 7提问于2022-07-14得票数 0

1回答

分解pyspark中的Maptype列

、、、

我有一个这样的数据帧 data = [(("ID1", {'A': 1, 'B': 2}))]df.show(nullable = true) | |-- value: long (valueContainsNull = true) 我想要分解“Coll”列，-++---+

浏览 20提问于2019-03-07得票数 2

回答已采纳

1回答

用Spark的from_json解析任意JSON

、

{"name": "sarah", "profession": "scientist"}, "ghi": {"name": "matt", "profession": "doctor"}} value列包含如您所见，每个JSON blob本身的形式为{A:B}，其中A是一个随机/任意字符串，B是一个格式相对良好的JSON对象。)或MapType<

浏览 2提问于2018-05-14得票数 4

1回答

将数组窗体(以字符串形式)转换为“火花”中的列

、、

我有一个如下表格的df：|ID|ESTRUC_COMP ||8B| {'AP': '501', 'BQ': '1', 'IN': '5'}|我需要这样的东西

浏览 0提问于2018-07-30得票数 0

回答已采纳

1回答

在pyspark中展开map类型的数组

、

我有一个类型为ArrayType(MapType(StringType，StringType))的列，我希望以这样的方式展开，即映射类型中的键变成列名，而它的值(Maptype)变成列的值。，内容长度-> 70，连接->关闭，Server -> Jetty(9.4.24.v20191120)，body -> 3c68313e426164204d65737361676520]

浏览 13提问于2022-02-07得票数 0

2回答

有没有办法在Pyspark中动态猜测模式？

、、、、

我尝试为其中几个定义了Struct模式，如下所示- from pyspark.sql.types import StructType,StructField, StringType display(dfJSON) 但这不是一种好的方法有没有一种方法可以处理所有这样<em

浏览 23提问于2021-10-02得票数 3

回答已采纳

1回答

解析存储为string的pyspark行

、

我有一个数据集，该数据集包含一些嵌套的吡火花行，这些行存储为字符串。当我将它们读入pyspark中时，这些列被读取为如下所示的字符串： 'Row(name='Bob', updated='Sat Nov 21 12:57:54', isProgrammer=True)'我的目标是将其中一些子字段解析为单独的列，但我在读取它们时遇到了困难。。df.select(col('user')[

浏览 3提问于2022-06-03得票数 0

3回答

如何在MapType中过滤PySpark中的密钥？

、、

给定如下所示的DataFrame，是否可以在保持模式完整的同时过滤出PySpark中列集合的一些键(MapType(StringType，StringType，True))？

浏览 3提问于2017-06-22得票数 4

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

当同一个数据帧在pyspark内部重复时发生堆栈溢出错误。

Spark DataFrame ArrayType或MapType用于检查列中的值

具有列表数据类型的列: Spark HiveContext

更新Pyspark中映射类型列的结构化值

从火花表中提取json的值会导致SyntaxError错误，或者keyType应该是DataType错误。

在群内创建字典

如何创建类型化的空MapType？

将PySpark类映射字符串拆分为Map对象

将具有字符串json字符串的列转换为带有字典的列

在UDF PySpark中从PySpark列中选择值

将模式数据类型JSON混合到PySpark* DataFrame*

如何将map<string，string>转换为map<string，timestamp> PySpark？

分解pyspark中的Maptype列

用Spark的from_json解析任意JSON

将数组窗体(以字符串形式)转换为“火花”中的列

在pyspark中展开map类型的数组

有没有办法在Pyspark中动态猜测模式？

解析存储为string的pyspark行

如何在MapType中过滤PySpark中的密钥？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐