腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
MapType
列
值
上
的
PySpark
杠杆
函数
、
、
下面是一个数据框架,它代表了我正在尝试实现
的
目标。但是请注意,我想要利用
的
函数
比这个例子要复杂一点。import
pyspark
('1',{1:100,2:200}),('1',{1:100,2:None})] df=spark.createDataFrame(data=arrayData, schema = ['id',&
浏览 7
提问于2021-10-22
得票数 0
回答已采纳
1
回答
当同一个数据帧在
pyspark
内部重复时发生堆栈溢出错误。
、
当在循环中重复相同
的
数据时,就会发生堆栈溢出错误。数据量仅为40k记录。在单节点14 is /28 is时,尝试使用集群大小。
浏览 8
提问于2022-06-07
得票数 0
1
回答
Spark DataFrame ArrayType或
MapType
用于检查
列
中
的
值
、
、
、
、
我有一个,其中一
列
是is列表。例如,我想获取其中包含特定ID
的
行数。但是,要使用映射,我需要使用自定义udf而不是内置(scala)
函数
array_contains进行筛选。有了
MapType
,我可以做到: from
pyspark
.sql.types import Boolea
浏览 1
提问于2018-10-30
得票数 2
回答已采纳
1
回答
具有列表数据类型
的
列
: Spark HiveContext
、
、
下面的代码聚合并创建一个数据类型为list
的
列
: "column_name_1" expr("collect_list(column_name_2) " ) 因此,似乎可以将“list”作为dataframe中
的
列
数据类型。我想知道我是否可以写一个返回自定义数据类型
的</e
浏览 2
提问于2016-07-15
得票数 0
1
回答
更新
Pyspark
中映射类型
列
的
结构化
值
、
、
、
、
我试图修改Map类型
的
Dataframe
列
,其
值
依次为Struct类型: |-- name: string (nullable = true)from
pyspark
.sql import SparkSession, DataFrame from
pyspark
.sql.functions import c
浏览 3
提问于2021-01-04
得票数 3
回答已采纳
2
回答
从火花表中提取json
的
值
会导致SyntaxError错误,或者keyType应该是DataType错误。
、
、
、
、
假设我在下面有这样
的
数据org:123|{"inn":"123”, "prof": "tkie"}org.withColumn('inn', from_json($"raw",
MapType
(StringType, StringType))).withColumn('inn', col(
浏览 14
提问于2021-12-27
得票数 0
回答已采纳
2
回答
在群内创建字典
、
在groupBy.agg()中创建字典是可能
的
吗?下面是一个玩具示例:from
pyspark
.sql import Rowspark =
pyspark
.sql.SparkSession(sc) Row(id=1, key='a'
浏览 0
提问于2019-03-22
得票数 6
1
回答
如何创建类型化
的
空
MapType
?
、
、
、
我有一个要匹配
的
数据帧模式,它有一个
MapType
(StringType(), StringType())类型
的
列
。我尝试了以下实现(使用Spark 2.2.1):from
pyspark
.sql.types import * df = spark.createDataFrame("map2", fx.create_map().cast(
MapType
(StringType()
浏览 0
提问于2018-07-19
得票数 2
1
回答
将
PySpark
类映射字符串拆分为Map对象
、
、
、
我在
PySpark
中有一个
列
,其中包含存储为字符串
的
字典/类似映射
的
值
。示例
值
:'{1:'Dogs', 2:'Dogs, Cats, and Fish', 3:'Fish & Turtles'}' '{1:'Pizza'
浏览 1
提问于2021-06-16
得票数 1
回答已采纳
1
回答
将具有字符串json字符串
的
列
转换为带有字典
的
列
、
、
在我
的
dataframe中有一个具有如下结构
的
列
。.|only showing top 5 rows
列
中
的
数据是一个json字符串。我希望将该
列
转换为其他类型(map,struct..)。如何使用udf
函数
完成此操作?我已经创建了这样一个
函数
,但不知道返回类型应该是什么。我试过StructType和
MapType
,这都是错误
的
结果。这是我
的
密码。im
浏览 2
提问于2020-05-29
得票数 1
回答已采纳
2
回答
在UDF
PySpark
中从
PySpark
列
中选择
值
、
、
、
、
我正在尝试从UDF
函数
中
的
MapType
列
中提取
PySpark
数据帧
的
值
。下面是
PySpark
数据文件:|CUSTOMER_ID|col_a |col_b |以下是代码: df_temp=df_temp.withColumn('test',test(F.col('col_a
浏览 9
提问于2022-04-19
得票数 1
回答已采纳
3
回答
将模式数据类型JSON混合到
PySpark
DataFrame
、
、
我需要将JSON
的
列表转换为
pySpark
DataFrames。JSON都有相同
的
架构。问题是JSON中dicts
的
值
条目有不同
的
数据类型。
PySpark
决定complex-field
的
架构应为:StructType("complex", ArrayType(
MapType
(StringType(), LongType()))) ,这将导致非长类型
值
为空DataType用于嵌套
MapTy
浏览 23
提问于2022-03-28
得票数 0
回答已采纳
1
回答
如何将map<string,string>转换为map<string,timestamp>
PySpark
?
、
、
、
、
我有一个名为matchtimes
的
列
,我想将它转换为map<string,timestamp>## Convert aStructType to
MapType
column : ## Useful when you want to move all Dynamic Fields of a Schema withina StructType column into a single
MapType
Column.from <em
浏览 7
提问于2022-07-14
得票数 0
1
回答
分解
pyspark
中
的
Maptype
列
、
、
、
我有一个这样
的
数据帧 data = [(("ID1", {'A': 1, 'B': 2}))]df.show(nullable = true) | |-- value: long (valueContainsNull = true) 我想要分解“Coll”
列
,-++---+
浏览 20
提问于2019-03-07
得票数 2
回答已采纳
1
回答
用Spark
的
from_json解析任意JSON
、
{"name": "sarah", "profession": "scientist"}, "ghi": {"name": "matt", "profession": "doctor"}} value
列
包含如您所见,每个JSON blob本身
的
形式为{A:B},其中A是一个随机/任意字符串,B是一个格式相对良好
的
JSON对象。)或
MapType<
浏览 2
提问于2018-05-14
得票数 4
1
回答
将数组窗体(以字符串形式)转换为“火花”中
的
列
、
、
我有一个如下表格
的
df:|ID|ESTRUC_COMP ||8B| {'AP': '501', 'BQ': '1', 'IN': '5'}|我需要这样
的
东西
浏览 0
提问于2018-07-30
得票数 0
回答已采纳
1
回答
在
pyspark
中展开map类型
的
数组
、
我有一个类型为ArrayType(
MapType
(StringType,StringType))
的
列
,我希望以这样
的
方式展开,即映射类型中
的
键变成列名,而它
的
值
(
Maptype
)变成
列
的
值
。,内容长度-> 70,连接->关闭,Server -> Jetty(9.4.24.v20191120),body -> 3c68313e426164204d65737361676520]
浏览 13
提问于2022-02-07
得票数 0
2
回答
有没有办法在
Pyspark
中动态猜测模式?
、
、
、
、
我尝试为其中几个定义了Struct模式,如下所示- from
pyspark
.sql.types import StructType,StructField, StringType display(dfJSON) 但这不是一种好
的
方法有没有一种方法可以处理所有这样<em
浏览 23
提问于2021-10-02
得票数 3
回答已采纳
1
回答
解析存储为string
的
pyspark
行
、
我有一个数据集,该数据集包含一些嵌套
的
吡火花行,这些行存储为字符串。当我将它们读入
pyspark
中时,这些
列
被读取为如下所示
的
字符串: 'Row(name='Bob', updated='Sat Nov 21 12:57:54', isProgrammer=True)'我
的
目标是将其中一些子字段解析为单独
的
列
,但我在读取它们时遇到了困难。。df.select(col('user')[
浏览 3
提问于2022-06-03
得票数 0
3
回答
如何在
MapType
中过滤
PySpark
中
的
密钥?
、
、
给定如下所示
的
DataFrame,是否可以在保持模式完整
的
同时过滤出
PySpark
中
列
集合
的
一些键(
MapType
(StringType,StringType,True))?
浏览 3
提问于2017-06-22
得票数 4
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
【Excel】提取一列中的不重复值函数
【Excel】提取一列中的唯一值函数
一个Python大数据处理利器:PySpark入门指南
一文读懂PySpark数据框
一文读懂 PySpark 数据框
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券