腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
删除
pyspark
中
的
嵌套
列
、
、
、
、
我有一个包含一
列
结果
的
pyspark
数据帧。在结果
列
中
,我想
删除
列
"Attributes“。dataframe
的
模式是:(在结果中有更多
的
列
,但为了方便起见,我没有显示它们,因为模式很大) |-- results: struct (nullable = true) | | | | | | |
浏览 20
提问于2020-06-15
得票数 0
回答已采纳
6
回答
用
PySpark
删除
数据表
的
嵌套
列
、
、
、
、
我正在尝试使用
PySpark
从中
的
结构
中
删除
一些
嵌套
列
。 我为Scala找到了这个,它似乎正是我想做
的
,但我不熟悉Scala,也不知道如何用Python编写它。
浏览 8
提问于2017-07-12
得票数 10
回答已采纳
1
回答
将
嵌套
字典键值转换为
pyspark
数据
、
、
、
我有一个
Pyspark
数据文件,看起来像这样:我希望提取"dic“
列
中
的
嵌套
字典,并将它们转换为
PySpark
数据格式。如下所示:请告诉我如何做到这一点。 谢谢!
浏览 2
提问于2020-07-20
得票数 2
2
回答
Pyspark
:更改
嵌套
列
数据类型
、
如何在
Pyspark
中
更改
嵌套
列
的
数据类型?例如,如何将value
的
数据类型从string更改为int?
浏览 19
提问于2017-08-23
得票数 1
回答已采纳
1
回答
将事务分组到
嵌套
模式
中
、
、
我希望将存储在
pyspark
.sql.dataframe.DataFrame "ddf“
中
的
事务按
列
"key”分组,该
列
指示事务
的
来源(在本例
中
为customer )。分组是一个非常昂贵
的
过程,因此我想在
嵌套
模式中将组写入磁盘: (key, [[c1, c2, c3,...], ...])这将允许我快速加载密钥上
的
所有事务,并在不重新运行分组
的
情况下开发复杂
的
自
浏览 6
提问于2016-05-14
得票数 0
回答已采纳
1
回答
(Py) SQL语法
中
的
星火getItem()
、
、
数组类型
列
的
第n项可以使用getitem(n)检索.地图类型
的
列
可以使用getItem(key)或'column.key'分开。数组有类似的语法吗?上下文:目标是以可读
的
方式从大规模
嵌套
的
json
中
获取特定字段。from
pyspark
import SparkContext sc = SparkContext.getOr
浏览 4
提问于2020-10-09
得票数 0
回答已采纳
1
回答
在Dataframe
中
,如何根据条件从行
中
删除
列
?
、
当该行上
的
列
值为零时,我想从行
中
删除
该
列
。我不想从Dataframe
中
删除
该
列
。仅当
列
值为零时,我才从该特定行
中
删除
该
列
。我用
的
是
Pyspark
。
浏览 19
提问于2020-04-09
得票数 0
2
回答
从
PySpark
DataFrame
列
中
删除
元素
我知道
PySpark
DataFrames是不可变
的
,所以我想创建一个新
列
,该
列
是根据应用到
PySpark
DataFrame
的
现有
列
的
转换生成
的
。我
的
数据太大了,无法使用collect()。该
列
是唯一int列表(在给定列表
中
不重复int),例如:[1,2][2,3] 上面是一个玩具例子,因为我
的
实际DataFrame有一个最大长度为5
浏览 9
提问于2017-01-12
得票数 1
回答已采纳
1
回答
将3级
嵌套
字典键值转换为
pyspark
dataframe
、
、
、
我有一个
Pyspark
数据框架,看起来像这样: ? 我想提取"dic“
列
中
的
那些
嵌套
字典,并将它们转换为
PySpark
数据帧。如下所示: ? 另外,每一行
中
的
键也会有一些变化,例如,一些行可能有其他行没有的字段。我希望包括所有字段,如果一条记录没有某些字段/keys,则该值可以显示为"null“。 请告诉我如何才能做到这一点。 谢谢!
浏览 22
提问于2020-07-22
得票数 0
1
回答
如何将自定义停止词列表添加到StopWordsRemover
、
、
、
、
我在我
的
pyspark
上使用
pyspark
.ml.feature.StopWordsRemover类。它有ID和文本
列
。除了提供默认
的
停止词列表外,我还想添加自己
的
自定义列表,以从字符串
中
删除
所有数值。from
py
浏览 0
提问于2017-04-26
得票数 9
回答已采纳
1
回答
从
Pyspark
Dataframe解析JSON字符串
、
、
、
、
我有一个
嵌套
的
JSON字典,我需要将其转换为spark dataframe。此JSON字典显示在数据框
列
中
。我一直在尝试使用"from_json“和"get_json_object”来解析dataframe
列
中
存在
的
字典,但一直无法读取数据。以下是我一直在尝试读取
的
源数据
的
最小片段: {"value": "\u0000\u0000\u0000\u0000/{\"co
浏览 36
提问于2021-04-01
得票数 1
回答已采纳
1
回答
使用
pyspark
解析JSON时不工作
的
嵌套
动态模式
、
、
我正在尝试从
嵌套
的
JSON (具有动态模式)中提取某些参数,并使用
pyspark
生成火花数据。我
的
代码非常适合于第1级(key:value),但对于作为
嵌套
JSON一部分
的
每一对(key:value)都无法获得独立
的
列
。注意-这不是确切
的
模式。它只是给出了模式
的
嵌套
性质
的
概念。数据)
嵌套
retweet_status JSON下
的</e
浏览 2
提问于2019-04-28
得票数 0
回答已采纳
1
回答
如何像scala .drop
中
那样
删除
rdd
列
、
、
、
、
文件videos.csv如下所示099acca-8888-48ca,Action,Comedy
浏览 2
提问于2016-12-29
得票数 3
1
回答
ValueError:无法将
列
转换为bool:在构建DataFrame布尔表达式时,请使用'&‘for 'and',’AC.26‘for’或'or','~‘表示'not’
、
我在使用这段代码
删除
带有
pyspark
的
嵌套
列
时出现了这个错误。为什么这不管用?我正试着用一个斜面代替一个错误,但它也没用。那么在这种情况下你是做什么
的
?
浏览 1
提问于2020-04-10
得票数 0
回答已采纳
1
回答
将
pyspark
/pandas数据帧
中
的
嵌套
dict值转换为
列
和行
、
、
、
、
我有一个只有一条记录
的
pyspark
数据帧。它包含一个id字段和一个"value“字段。value字段包含
嵌套
的
语句,如下面的inputdf所示。我想创建一个新
的
数据帧,如下面的outputdf所示,其中type
列
是inputdf
中
value字段
中
嵌套
dict
的
键,value和active
列
包含
嵌套
dict
中
的
相应值。有没有人有一个巧妙
浏览 0
提问于2020-08-08
得票数 1
1
回答
将array<string>转换为string
pyspark
dataframe
、
、
、
、
我有一个
pyspark
dataframe,其中一些
列
包含字符串数组(其中一
列
包含
嵌套
数组)。因此,我无法将数据帧写入csv。下面是我正在处理
的
数据帧
的
一个示例- |ID | emailed| clicked| Null +-------+----------------
浏览 2
提问于2017-09-11
得票数 5
回答已采纳
1
回答
将
嵌套
的
JSON
列
转换为
Pyspark
列
、
、
、
我已经使用S3数据格式在
pyspark
.pandas
中
读取和存储了拼花文件。现在,在第二阶段,我试图在databricks
中
读取
pyspark
dataframe
中
的
parquet文件,并面临将
嵌套
的
json
列
转换为适当
列
的
问题。首先,我使用以下命令从S3读取拼图数据:我
的<
浏览 8
提问于2022-06-07
得票数 0
1
回答
Parquet
中
的
嵌套
数据类型
、
、
、
Parquet文件
的
文档表明它可以存储/处理
嵌套
数据类型。然而,我找不到更多关于最佳做法/陷阱/.
的
信息。将这些
嵌套
数据类型存储到Parquet时。我正在考虑以下情况: I使用
PySpark
(Spark3.3)将我
的
星火DataFrame存储到一个Delta文件(该文件在罩下使用Parquet文件)。DataFrame DataFrame有一个
嵌套
的
数据类型( StructType )
列
,还有许多(10
浏览 2
提问于2022-11-11
得票数 1
1
回答
如何读取大于3 3GB且
嵌套
元素中有重复列
的
json文件
、
、
、
我在Azure技术上工作,想要读取json文件,它超过3 3GB,并且在
嵌套
元素中有重复
的
列
。我试过
pyspark
,数据流,pipeines。但不走运。你能建议我使用哪种技术吗?
浏览 34
提问于2021-11-18
得票数 0
1
回答
Pyspark
:获取
嵌套
结构
列
的
数据类型
、
、
、
我目前正在处理一些相当复杂
的
json文件,我应该将它们转换并写入增量表。问题是,当涉及到
列
的
数据类型时,每个文件都有细微
的
差异。有人能给我解释一下检索
嵌套
结构
列
的
数据类型
的
一般方法吗?在互联网上,我只能找到如何对它们做选择:https://sparkbyexamples.com/
pyspark
/
pyspark
-select-nested-struct-columns/
浏览 42
提问于2021-10-22
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券