腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
MapType
列
值
上
的
PySpark
杠杆
函数
、
、
下面是一个数据框架,它代表了我正在尝试实现
的
目标。但是请注意,我想要利用
的
函数
比这个例子要复杂一点。import
pyspark
('1',{1:100,2:200}),('1',{1:100,2:None})] df=spark.createDataFrame(data=arrayData, schema = ['id',&
浏览 7
提问于2021-10-22
得票数 0
回答已采纳
1
回答
当同一个数据帧在
pyspark
内部重复时发生堆栈溢出错误。
、
当在循环中重复相同
的
数据时,就会发生堆栈溢出错误。数据量仅为40k记录。在单节点14 is /28 is时,尝试使用集群大小。
浏览 8
提问于2022-06-07
得票数 0
1
回答
Spark DataFrame ArrayType或
MapType
用于检查
列
中
的
值
、
、
、
、
我有一个,其中一
列
是is列表。例如,我想获取其中包含特定ID
的
行数。但是,要使用映射,我需要使用自定义udf而不是内置(scala)
函数
array_contains进行筛选。有了
MapType
,我可以做到: from
pyspark
.sql.types import Boolea
浏览 1
提问于2018-10-30
得票数 2
回答已采纳
1
回答
具有列表数据类型
的
列
: Spark HiveContext
、
、
下面的代码聚合并创建一个数据类型为list
的
列
: "column_name_1" expr("collect_list(column_name_2) " ) 因此,似乎可以将“list”作为dataframe中
的
列
数据类型。我想知道我是否可以写一个返回自定义数据类型
的</e
浏览 2
提问于2016-07-15
得票数 0
1
回答
更新
Pyspark
中映射类型
列
的
结构化
值
、
、
、
、
我试图修改Map类型
的
Dataframe
列
,其
值
依次为Struct类型: |-- name: string (nullable = true)from
pyspark
.sql import SparkSession, DataFrame from
pyspark
.sql.functions import c
浏览 3
提问于2021-01-04
得票数 3
回答已采纳
2
回答
从火花表中提取json
的
值
会导致SyntaxError错误,或者keyType应该是DataType错误。
、
、
、
、
假设我在下面有这样
的
数据org:123|{"inn":"123”, "prof": "tkie"}org.withColumn('inn', from_json($"raw",
MapType
(StringType, StringType))).withColumn('inn', col(
浏览 14
提问于2021-12-27
得票数 0
回答已采纳
2
回答
在群内创建字典
、
在groupBy.agg()中创建字典是可能
的
吗?下面是一个玩具示例:from
pyspark
.sql import Rowspark =
pyspark
.sql.SparkSession(sc) Row(id=1, key='a'
浏览 0
提问于2019-03-22
得票数 6
1
回答
如何创建类型化
的
空
MapType
?
、
、
、
我有一个要匹配
的
数据帧模式,它有一个
MapType
(StringType(), StringType())类型
的
列
。我尝试了以下实现(使用Spark 2.2.1):from
pyspark
.sql.types import * df = spark.createDataFrame("map2", fx.create_map().cast(
MapType
(StringType()
浏览 0
提问于2018-07-19
得票数 2
1
回答
将
PySpark
类映射字符串拆分为Map对象
、
、
、
我在
PySpark
中有一个
列
,其中包含存储为字符串
的
字典/类似映射
的
值
。示例
值
:'{1:'Dogs', 2:'Dogs, Cats, and Fish', 3:'Fish & Turtles'}' '{1:'Pizza'
浏览 1
提问于2021-06-16
得票数 1
回答已采纳
1
回答
将具有字符串json字符串
的
列
转换为带有字典
的
列
、
、
在我
的
dataframe中有一个具有如下结构
的
列
。.|only showing top 5 rows
列
中
的
数据是一个json字符串。我希望将该
列
转换为其他类型(map,struct..)。如何使用udf
函数
完成此操作?我已经创建了这样一个
函数
,但不知道返回类型应该是什么。我试过StructType和
MapType
,这都是错误
的
结果。这是我
的
密码。im
浏览 2
提问于2020-05-29
得票数 1
回答已采纳
2
回答
在UDF
PySpark
中从
PySpark
列
中选择
值
、
、
、
、
我正在尝试从UDF
函数
中
的
MapType
列
中提取
PySpark
数据帧
的
值
。下面是
PySpark
数据文件:|CUSTOMER_ID|col_a |col_b |以下是代码: df_temp=df_temp.withColumn('test',test(F.col('col_a
浏览 9
提问于2022-04-19
得票数 1
回答已采纳
3
回答
将模式数据类型JSON混合到
PySpark
DataFrame
、
、
我需要将JSON
的
列表转换为
pySpark
DataFrames。JSON都有相同
的
架构。问题是JSON中dicts
的
值
条目有不同
的
数据类型。
PySpark
决定complex-field
的
架构应为:StructType("complex", ArrayType(
MapType
(StringType(), LongType()))) ,这将导致非长类型
值
为空DataType用于嵌套
MapTy
浏览 23
提问于2022-03-28
得票数 0
回答已采纳
1
回答
如何将map<string,string>转换为map<string,timestamp>
PySpark
?
、
、
、
、
我有一个名为matchtimes
的
列
,我想将它转换为map<string,timestamp>## Convert aStructType to
MapType
column : ## Useful when you want to move all Dynamic Fields of a Schema withina StructType column into a single
MapType
Column.from <em
浏览 7
提问于2022-07-14
得票数 0
1
回答
分解
pyspark
中
的
Maptype
列
、
、
、
我有一个这样
的
数据帧 data = [(("ID1", {'A': 1, 'B': 2}))]df.show(nullable = true) | |-- value: long (valueContainsNull = true) 我想要分解“Coll”
列
,-++---+
浏览 20
提问于2019-03-07
得票数 2
回答已采纳
1
回答
用Spark
的
from_json解析任意JSON
、
{"name": "sarah", "profession": "scientist"}, "ghi": {"name": "matt", "profession": "doctor"}} value
列
包含如您所见,每个JSON blob本身
的
形式为{A:B},其中A是一个随机/任意字符串,B是一个格式相对良好
的
JSON对象。)或
MapType<
浏览 2
提问于2018-05-14
得票数 4
1
回答
将数组窗体(以字符串形式)转换为“火花”中
的
列
、
、
我有一个如下表格
的
df:|ID|ESTRUC_COMP ||8B| {'AP': '501', 'BQ': '1', 'IN': '5'}|我需要这样
的
东西
浏览 0
提问于2018-07-30
得票数 0
回答已采纳
1
回答
在
pyspark
中展开map类型
的
数组
、
我有一个类型为ArrayType(
MapType
(StringType,StringType))
的
列
,我希望以这样
的
方式展开,即映射类型中
的
键变成列名,而它
的
值
(
Maptype
)变成
列
的
值
。,内容长度-> 70,连接->关闭,Server -> Jetty(9.4.24.v20191120),body -> 3c68313e426164204d65737361676520]
浏览 13
提问于2022-02-07
得票数 0
2
回答
有没有办法在
Pyspark
中动态猜测模式?
、
、
、
、
我尝试为其中几个定义了Struct模式,如下所示- from
pyspark
.sql.types import StructType,StructField, StringType display(dfJSON) 但这不是一种好
的
方法有没有一种方法可以处理所有这样<em
浏览 23
提问于2021-10-02
得票数 3
回答已采纳
1
回答
解析存储为string
的
pyspark
行
、
我有一个数据集,该数据集包含一些嵌套
的
吡火花行,这些行存储为字符串。当我将它们读入
pyspark
中时,这些
列
被读取为如下所示
的
字符串: 'Row(name='Bob', updated='Sat Nov 21 12:57:54', isProgrammer=True)'我
的
目标是将其中一些子字段解析为单独
的
列
,但我在读取它们时遇到了困难。。df.select(col('user')[
浏览 3
提问于2022-06-03
得票数 0
3
回答
如何在
MapType
中过滤
PySpark
中
的
密钥?
、
、
给定如下所示
的
DataFrame,是否可以在保持模式完整
的
同时过滤出
PySpark
中
列
集合
的
一些键(
MapType
(StringType,StringType,True))?
浏览 3
提问于2017-06-22
得票数 4
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
【Excel】提取一列中的不重复值函数
【Excel】提取一列中的唯一值函数
一文读懂PySpark数据框
一文读懂 PySpark 数据框
PySpark分析二进制文件
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券