腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
将列表列转换为
嵌套
结构
列
、
、
、
、
我正在尝试将一组丑陋
的
文本
字符串
转换为具有代表性
的
PySpark
数据格式。最后一步是将包含
字符串
列表
的
列
转换为包含
嵌套
行结构
的
列
。对于列表
中
的
每个
字符串
,我使用python字典理解将其规范化为相同
的
字段。当我试图通过列上
的
udf来转换它时,它会失败。 我
的
列
“记录”包含这样
的
浏览 2
提问于2018-10-20
得票数 1
回答已采纳
1
回答
将array<string>转换为string
pyspark
dataframe
、
、
、
、
我有一个
pyspark
dataframe,其中一些
列
包含
字符串
数组(其中一
列
包含
嵌套
数组)。因此,我无法将数据帧写入csv。下面是我正在处理
的
数据帧
的
一个示例- |ID | emailed| clicked| Null +-------+-------
浏览 2
提问于2017-09-11
得票数 5
回答已采纳
2
回答
PySpark
DataFrames:筛选数组
列
中
的
值
、
我在
PySpark
中有一个
PySpark
,它
的
一个字段有一个
嵌套
数组值。我想过滤数组包含特定
字符串
的
DataFrame。我不知道该怎么做。nullable = true) | |-- element: string (containsNull = false) 我希望返回upper(name) == 'JOHN'和lastName
列
(数组)包含'SMITH'和等式
的
所有行(就像我对名称所做
的</e
浏览 4
提问于2016-06-24
得票数 0
回答已采纳
0
回答
字符串
中
的
pyspark
嵌套
列
、
、
我正在和
PySpark
一起工作。,其中包含由每个元素分隔
的
‘DataFrame’
字符串
。我能得到
的
最接近
的
方法是定义模式,如下所示,并使用from_json创建一个新
的
df应用模式 StructField("user_id", StringType)+-------++-------+| null|也许我不
浏览 1
提问于2018-07-12
得票数 1
1
回答
将
嵌套
字典键值转换为
pyspark
数据
、
、
、
我有一个
Pyspark
数据文件,看起来像这样:我希望提取"dic“
列
中
的
嵌套
字典,并将它们转换为
PySpark
数据格式。如下所示:请告诉我如何做到这一点。 谢谢!
浏览 2
提问于2020-07-20
得票数 2
1
回答
解析存储为string
的
pyspark
行
、
我有一个数据集,该数据集包含一些
嵌套
的
吡火花行,这些行存储为
字符串
。当我将它们读入
pyspark
中
时,这些
列
被读取为如下所示
的
字符串
: 'Row(name='Bob', updated='Sat Nov 21 12:57:54', isProgrammer=True)'我
的
目标是将其中一些子字段解析为单独
的
列
,但我在读取它们时遇到了困难。。
浏览 3
提问于2022-06-03
得票数 0
2
回答
在
PySpark
中使用
列
对象而不是
字符串
有什么优点
、
、
、
、
在
PySpark
中
,可以使用
列
对象和
字符串
来选择
列
。这两种方法返回相同
的
结果。有什么不同吗?什么时候应该使用
列
对象而不是
字符串
?例如,我可以使用column对象:# or# or
浏览 0
提问于2020-11-09
得票数 0
1
回答
json转换:无法解析JSON格式
的
模式:未能将JSON
字符串
(大JSON
字符串
)转换为数据类型
、
、
、
、
使用复杂
的
嵌套
结构
列
时,我很难在
pyspark
内部进行json转换。from_json
的
架构似乎没有行为。示例: df = spark.createDataFrame([[1,'a'],[2,'b'],[3,'c']], ['rownumstruct')).withColumn('struct',f.from_json(
浏览 2
提问于2022-02-18
得票数 0
1
回答
使用
Pyspark
从数组
中
读取JSON项?
、
、
、
我在从databricks
中
的
Cosmos DB读取项目时遇到了一些问题,它似乎将JSON读取为
字符串
值,并将数据从JSON
中
读取到
列
中
。我有一个名为ProductRanges
的
列
,其中一行包含以下值: [ { "min": 0, "max": 99,JSON文档是有效
的
,当
浏览 29
提问于2019-05-13
得票数 4
回答已采纳
1
回答
在
Pyspark
2.4
中
使用StructType验证
列
的
模式
、
、
我有一个dataframe,它
的
一个
列
是一个JSON
字符串
from
pyspark
.sql import SparkSessionimportfoo, bar], true]]|+---+--------------------------+ 可以看出,第二行不符合schema
中
的
模式对于我
的
管道来说,如果有数据不符合
浏览 21
提问于2019-09-19
得票数 0
2
回答
Pyspark
:更改
嵌套
列
数据类型
、
如何在
Pyspark
中
更改
嵌套
列
的
数据类型?例如,如何将value
的
数据类型从string更改为int?
浏览 19
提问于2017-08-23
得票数 1
回答已采纳
2
回答
在
pyspark
DataFrame
中
创建某个类型
的
空数组
列
、
、
、
我尝试向df添加一个包含
字符串
数组
的
空数组
的
列
,但最终添加了一个
字符串
数组
的
列
。我试过这个: import
pyspark
.sql.functions as F df = df.withColumn('newCol', F.array([])) 我如何在
pyspark
中
做到这一点?
浏览 91
提问于2019-08-28
得票数 9
回答已采纳
6
回答
用
PySpark
删除数据表
的
嵌套
列
、
、
、
、
我正在尝试使用
PySpark
从中
的
结构
中
删除一些
嵌套
列
。 我为Scala找到了这个,它似乎正是我想做
的
,但我不熟悉Scala,也不知道如何用Python编写它。
浏览 8
提问于2017-07-12
得票数 10
回答已采纳
1
回答
如何将电火花
列
(
pyspark
.sql.column.Column)转换为火花放电数据?
、
、
我有一个用例来映射基于条件
的
pyspark
列
的
元素。通过这个文档,我找不到一个函数来执行映射函数。因此,尝试使用
pyspark
映射函数,但无法将
pyspark
列
转换为dataFrame # like c
浏览 4
提问于2021-11-19
得票数 0
回答已采纳
1
回答
将事务分组到
嵌套
模式
中
、
、
我希望将存储在
pyspark
.sql.dataframe.DataFrame "ddf“
中
的
事务按
列
"key”分组,该
列
指示事务
的
来源(在本例
中
为customer )。分组是一个非常昂贵
的
过程,因此我想在
嵌套
模式中将组写入磁盘: (key, [[c1, c2, c3,...], ...])这将允许我快速加载密钥上
的
所有事务,并在不重新运行分组
的
情况下开发复杂
的
自
浏览 6
提问于2016-05-14
得票数 0
回答已采纳
1
回答
(Py) SQL语法
中
的
星火getItem()
、
、
数组类型
列
的
第n项可以使用getitem(n)检索.地图类型
的
列
可以使用getItem(key)或'column.key'分开。数组有类似的语法吗?上下文:目标是以可读
的
方式从大规模
嵌套
的
json
中
获取特定字段。from
pyspark
import SparkContext sc = SparkContext.getOr
浏览 4
提问于2020-10-09
得票数 0
回答已采纳
2
回答
如何从
PySpark
中
的
2
列
中
获得一行序列
字符串
?
、
、
、
、
我有以下数据结构:
列
"s“和"d”表示"x“
列
中
对象
的
转换。我想要做
的
是获取"x“
列
中
的
每个对象
的
转换
字符串
。例如,“新”栏如下:有使用
PySpark
的
好方法吗?我使用
PySpark
尝试了以下udf代码,但它不起作用: from
pyspark
.sql.functions impor
浏览 13
提问于2022-10-19
得票数 1
回答已采纳
1
回答
删除
pyspark
中
的
嵌套
列
、
、
、
、
我有一个包含一
列
结果
的
pyspark
数据帧。在结果
列
中
,我想删除
列
"Attributes“。dataframe
的
模式是:(在结果中有更多
的
列
,但为了方便起见,我没有显示它们,因为模式很大) |-- results: struct (nullable = true) | | | | | | | | |-
浏览 20
提问于2020-06-15
得票数 0
回答已采纳
1
回答
将3级
嵌套
字典键值转换为
pyspark
dataframe
、
、
、
我有一个
Pyspark
数据框架,看起来像这样: ? 我想提取"dic“
列
中
的
那些
嵌套
字典,并将它们转换为
PySpark
数据帧。如下所示: ? 另外,每一行
中
的
键也会有一些变化,例如,一些行可能有其他行没有的字段。我希望包括所有字段,如果一条记录没有某些字段/keys,则该值可以显示为"null“。 请告诉我如何才能做到这一点。 谢谢!
浏览 22
提问于2020-07-22
得票数 0
1
回答
从
Pyspark
Dataframe解析JSON
字符串
、
、
、
、
我有一个
嵌套
的
JSON字典,我需要将其转换为spark dataframe。此JSON字典显示在数据框
列
中
。我一直在尝试使用"from_json“和"get_json_object”来解析dataframe
列
中
存在
的
字典,但一直无法读取数据。以下是我一直在尝试读取
的
源数据
的
最小片段: {"value": "\u0000\u0000\u0000\u0000/{\"co
浏览 36
提问于2021-04-01
得票数 1
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券