腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如何
解析
pyspark
的
DataStreamReader
中
的
json
字符
串列
并
创建
数据
帧
、
、
、
messageDF = messageDFRaw.selectExpr("CAST(key AS STRING)", "CAST(value AS STRING) as dict") 当我打印来自上述查询
的
数据
框时|key|dict| |#badbunny |{"channel": "#badbunny", "username": "mgat22", "message": "cool"}|
如
浏览 9
提问于2019-02-15
得票数 0
回答已采纳
1
回答
如何
在控制台上打印spark
数据
框名称
、
我是spark
的
新手。我们有没有内置
的
函数来打印刚才
的
数据
框名称?
浏览 6
提问于2020-02-17
得票数 0
回答已采纳
1
回答
如何
在Apache火花中连接嵌套
的
json
、
有人能让我知道我连接嵌套
JSON
字段
的
尝试出了什么问题吗?目前
的
数据
如下:在连接'name‘字段之后,应该只有一个值,例如'name’字段将只显示Lewis Hamilton,并且像wise一样显示'name‘字段
中
的
其他值。我
的
代码会产生以下错误: Can't extract value from name#6976: need struct type but got string
浏览 6
提问于2021-11-13
得票数 1
回答已采纳
1
回答
从
PySpark
中
的
复杂列中提取值
、
、
我有一个
PySpark
数据
帧
,它有一个复杂
的
列,请参考下列值:1 [{"label":"animal","value":"cat"},{"label":null,"value":"George"}] 我想在
PySpark
dataframe
中
添加一个新列,它基本上将它转换为一个
字符
串列
表。
浏览 0
提问于2021-02-09
得票数 0
2
回答
从
json
模式表示
创建
spark
数据
帧
模式
、
有没有办法将
数据
帧
模式序列化为
json
,并在以后反序列化它? 用例很简单:我有一个
json
配置文件,其中包含我需要读取
的
数据
帧
的
模式。我希望能够从现有模式(在dataframe
中
)
创建
默认配置,并且能够通过从
json
字符
串
中
读取相关模式来生成稍后使用
的
相关模式。
浏览 1
提问于2016-12-04
得票数 30
回答已采纳
1
回答
处理火花流
中
的
json
字符
串列
表
、
、
我试图转换我得到
的
输入火花流,以便
创建
一个
数据
。基本上,我收到一个
json
字符
串列
表,我希望从中提取
数据
。+----------+----------++----------+--------
浏览 3
提问于2022-01-10
得票数 0
2
回答
火花:
如何
解析
嵌套列表
的
JSON
字符
串以激发
数据
框架?
、
、
、
如何
解析
嵌套列表
中
的
JSON
字符
串以激发
pyspark
中
的
数据
帧
?输入
数据
框架:|url |
json
import
pyspark
.sql.functions as F spark = (
py
浏览 1
提问于2021-02-08
得票数 2
回答已采纳
3
回答
Pandas:有没有一种方法可以在不遇到AttributeError
的
情况下使用.str访问器来检查对象是否真的是一个
字符
串?
、
、
我使用toPandas()将
pyspark
数据
帧
转换为pandas
数据
帧
。但是,因为某些
数据
类型不对齐,所以pandas会将
数据
帧
中
的
某些列强制转换为object。我想用实际
的
字符
串在我
的
列上运行.str,但似乎不能让它工作(如果没有显式地找到首先要转换
的
列)。(作为参考,我尝试做
的
是,如果
数据
帧</e
浏览 1
提问于2020-06-23
得票数 1
1
回答
如何
在
PySpark
中
读取大型
JSON
文件
、
、
、
、
问题
如何
在
PySpark
2<e
浏览 1
提问于2018-02-10
得票数 0
回答已采纳
0
回答
如何
在
PySpark
中
创建
一个返回
字符
串数组
的
自定义函数?
、
、
、
、
我有一个返回
字符
串列
表
的
udf。这应该不会太难。我在执行udf时传入了
数据
类型,因为它返回一个
字符
串数组:ArrayType(StringType)。现在,不知何故,这不起作用:df_subsets_concat.show(3,False) +-------------------df_subsets_concat.withColumn('subset', lab
浏览 6
提问于2017-12-07
得票数 26
回答已采纳
4
回答
Pyspark
:
如何
将spark dataframe转换为
json
并
保存为
json
文件?
、
、
、
我正在尝试将我
的
pyspark
sql dataframe转换为
json
,然后保存为文件。df_final = df_final.union(join_df) 我试过这样
的
东西。但是它
创建
了一个无效
的
json
。df_final.coalesce(1).write.format('
json
').save(data_output_file+"createjson.
浏览 0
提问于2018-11-22
得票数 7
1
回答
取消透视列
pyspark
dataframe,其中value是字典列表
、
、
、
、
我已经从字典列表
创建
了一个pandas
数据
帧
,
并
使用
json
_normalize取消了一列
的
透视。现在我必须将代码转换为使用
pyspark
而不是pandas。df = pd.
json
_normalize(list_
json
,'Messages',['ID']) 21122, true ,Testdescription1, 2
浏览 0
提问于2021-03-10
得票数 0
3
回答
如何
创建
动态
数据
帧
、
、
、
、
我试图
创建
一个
数据
框,我之所以以下面的方式指定
创建
数据
框,是为了使其成为动态
的
,但表达式是作为
字符
串传递
的
,并且exec命令无法
创建
数据
框并将其赋值给变量。下面是我
的
代码: value ='true' header='header'
浏览 18
提问于2020-02-08
得票数 0
2
回答
将
字符
串转换为
pyspark
.sql.types.StructType
pyspark
、
我试图在
pyspark
中
创建
空
的
dataframe,在
pyspark
中
,我从外部
JSON
文件传递scehma,但是
Json
不允许我指定struct类型,所以我提到它是string。
json
文件: "OptionalEvents" : { "StructType([StructField('id',StringType(),
浏览 39
提问于2021-08-23
得票数 1
回答已采纳
1
回答
如何
从
PySpark
列表
中
删除/替换
字符
、
、
、
我是Python/
PySpark
的
新手,目前在Databricks中使用它。object" : ["191.168.192.103", "191.168.192.107"]}',),当我试着它不能正确
解析
JSON
。结果
数据</e
浏览 6
提问于2019-11-15
得票数 0
回答已采纳
5
回答
修剪
PySpark
数据
帧
中
的
字符
串列
、
、
、
从CSV文件
创建
Spark DataFrame后,我想修剪一列。我试过了:df是我
的
数据
框,Product是我
的
表
中
的
一列Column object
浏览 1
提问于2016-02-02
得票数 30
1
回答
计算具有结构列类型
的
PySpark
数据
框
中
的
空值或零
、
、
我有一个混合了整数列、
字符
串列
和结构列
的
PySpark
数据
框架。结构列可以是结构,但也可以只是null。null |4 | something | null |有没有什么简单
的
方法可以遍历整个
数据
帧
并
获得null/na/0值
的
计数,而不必分解结构列?例如
浏览 0
提问于2021-11-27
得票数 0
1
回答
Pyspark
-将特定
字符
串转换为日期格式
、
我有一个日期
pyspark
数据
帧
,其中有一个Mon-YY格式
的
字符
串列
,例如。‘’Jan 17‘,我正在尝试将其转换为日期列。我试过这样做,但没有成功: df.select(to_timestamp(df.t, 'MON-YY HH:mm:ss').alias('dt')) 有没有可能像在SQL
中
那样做,或者我需要编写一个特殊
的
函数来进行转换
浏览 7
提问于2020-04-27
得票数 0
2
回答
从单个
pyspark
dataframe返回多列
、
、
、
、
我正在尝试
解析
单个列
的
columns.My
数据
帧
,
并
获取具有多个
pyspark
数据
帧
的
数据
帧
,如下所示:0 1 2 {'d': 1, 'e':2}2 5 6 {'d': 5,
浏览 40
提问于2020-03-01
得票数 0
回答已采纳
1
回答
根据特定
的
列
数据
,将
Pyspark
数据
分解为多个
json
文件?
、
、
、
、
如何
将此
json
文件拆分为多个
json
文件,
并
使用year将其保存在
Pyspark
目录
中
?":"Cherry", "cost": "300"} 另外,如果遇到不同
的
年份,
如何
以类似的方式推送文件:path.../2021/<all split
json
files>?一开始,我试着找出所有独特
的
水果,
并</e
浏览 4
提问于2022-01-19
得票数 2
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券