腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
解析
Pyspark
dataframe
中
的
XML
列
、
、
、
我是
PySpark
的
新手,正在尝试解决一个数据问题。我有一个
pyspark
DF,它是用从MS SQL Server中提取
的
数据创建
的
,有2
列
: ID (整数)和XMLMsg (字符串)。第二
列
XMLMsg包含
XML
格式
的
数据。我们
的
目标是
解析
XML
列
,并使用从XMLMsg中提取
的
列
在同一DF
中
创建其他
浏览 38
提问于2020-08-15
得票数 1
回答已采纳
1
回答
修改Spark
中
的
UDF以创建额外
的
键
列
、
、
、
我有一个由几行数据组成
的
dataframe
,以及一个需要
解析
的
XML
列
。我能够用来自这个
的
下面的代码
解析
这个
XML
import
pyspark
.sql.functions as F ).s
浏览 8
提问于2021-12-22
得票数 0
1
回答
TypeError:需要一个类似字节
的
对象,而不是“行”星图
、
、
我正试图在我
的
DataFrame
中将
XML
转换为JSON。我有以下几点 return json.dumps(xmltodict.parse(line)) process() File "
浏览 0
提问于2018-03-13
得票数 0
回答已采纳
2
回答
使用UDF从
PySpark
Dataframe
解析
XML
列
、
、
、
我有一个场景,在
dataframe
列
中有
XML
数据。
xml
version="1....|2007|
XML
格式- <?
xml
version="1.0" encoding="utf-8"?
浏览 3
提问于2020-11-20
得票数 5
回答已采纳
1
回答
解析
电火花中
的
地址函数
、
、
、
、
我想在
PySpark
中
的
dataframe
中
添加一个
列
,其中包含通过libpostal库
解析
的
地址。import
pyspark
.sql.functions as sfdf = spark.read.parquet(path_hdfssf.concat(col("street"),sf.lit(" ") ,col(
浏览 1
提问于2021-04-19
得票数 2
1
回答
将df转换为新
的
df并更改
列
的
上下文。
、
我有一个
dataframe
df_test,我想将all
列
解析
为一个新
的
df。另外,我希望使用if with语句来修改一
列
的
上下文。试过这个:import pandas as pd df_cast= df_test.withColumn
浏览 3
提问于2020-11-20
得票数 0
回答已采纳
2
回答
用不同
的
列
合并两个星火数据格式,以获得所有
列
、
、
AUS null brand2 450 230 我需要我
的
结果数据brand2 450 230因此,我想要
的
df应该包含来自这两个数据
的
所有
列
,我还需要所有行
中
的
Date_part --
浏览 3
提问于2021-08-19
得票数 0
回答已采纳
5
回答
DataFrame
对象没有属性“col”
在“火花:最终指南”
中
,它说: df.col("count") 但是,当我在包含
列
count
的
dataframe
上运行后
的
代码时,就会得到错误'
DataFrame
' object
浏览 2
提问于2018-08-12
得票数 9
2
回答
使用来自另一个
dataframe
的
JSON对象创建新
的
数据
、
、
、
、
我有一个
dataframe
,它在一个
列
中
存储一个JSON对象。我希望处理JSON对象来创建一个新
的
dataframe
(
列
的
数目和类型不同,每行将从JSON对象生成n个新行)。我在下面编写了这样
的
逻辑:在迭代原始数据集时,将字典(行)附加到列表
中
。for item in row.json_object['obj']: # create a dictionary to represent each r
浏览 4
提问于2022-10-19
得票数 1
回答已采纳
2
回答
如何将
pyspark
sql
DataFrame
保存为
xml
格式
、
、
、
、
我以拼图格式存储了一个
pyspark
sql
dataframe
。现在,我还想将其保存为
xml
格式。我该怎么做呢?直接将
pyspark
sql
dataframe
保存在
xml
中
或将拼图转换为
xml
的
解决方案,对我来说什么都行。提前谢谢。
浏览 0
提问于2016-06-21
得票数 0
1
回答
将一个函数应用到多个文件
中
,将数据加载到
、
我有许多结构混乱
的
JSON文件。我想把这些
解析
成一个
PySpark
DataFrame
。我编写了一个
解析
函数,并希望将其应用于目录
中
的
每个文件,并将其输入到我
的
DataFrame
中
。我对
PySpark
完全陌生,所以任何帮助都是非常感谢
的
。我曾希望我能做一些事情来达到这样
的
效果: data_files =
浏览 4
提问于2022-02-28
得票数 0
回答已采纳
1
回答
在
PySpark
DataFrames
中
,为什么__setitem__没有完全实现?
、
、
、
在
PySpark
中
,我们不能使用传统
的
熊猫或R风格
的
符号来根据
DataFrame
中
的
旧
列
来制作新
的
列
。例如,假设我试图连接两
列
:df['newcol'] = F.concat(df['col_1'], df['col_2']) 结果:TypeError:
浏览 1
提问于2016-07-28
得票数 1
回答已采纳
1
回答
如何将电火花
列
(
pyspark
.sql.column.Column)转换为火花放电数据?
、
、
我有一个用例来映射基于条件
的
pyspark
列
的
元素。通过这个文档,我找不到一个函数来执行映射函数。因此,尝试使用
pyspark
映射函数,但无法将
pyspark
列
转换为
dataFrame
带有时间戳字符串
的
pyspark
列<
浏览 4
提问于2021-11-19
得票数 0
回答已采纳
1
回答
jupyter笔记本上
的
spark
xml
、
、
我正试图在我
的
jupyter笔记本上运行spark,以便使用spark读取
xml
文件。from os import environ我发现这是利用它
的
方法。但是,当我试图导入com.databricks.spark.
xml
._时,我会看到一个
浏览 1
提问于2021-03-17
得票数 1
回答已采纳
1
回答
pyspark
.pandas API:构造共生矩阵,.dot()不支持数据作为输入。
、
、
、
我试图使用
pyspark
.pandas API在数据库上构造数据
的
共生矩阵。该代码在熊猫
中
运行良好,但在使用
pyspark
.pandas时出现了错误。coocc = psdf.T.dot(psdf)我得到了这个错误我查过医生了。
pyspark
.pandas.
DataFrame
.dot() 以串联作为输入。我尝试使用psdf.squeeze()将<em
浏览 8
提问于2022-10-14
得票数 0
回答已采纳
1
回答
访问
PySpark
中
的
计数列
、
、
、
、
code: mydf.show() | word|count|| she| 2208|| poet| 59|| active| 6|我想按降序顺序根据字数排序这个数据框架。 countDF = mydf.order
浏览 1
提问于2016-07-14
得票数 4
回答已采纳
2
回答
替换星火
DataFrame
中
的
列
值
、
、
请您帮助我替换dataframes spark
中
的
列
值: ["2", "xxx", "company 1"],company 44", "company 2"],
浏览 1
提问于2022-03-01
得票数 0
回答已采纳
2
回答
如何在
pyspark
中
合并重复
的
列
?
、
、
我有一个
pyspark
dataframe
,其中一些
列
具有相同
的
名称。我想将具有相同名称
的
所有
列
合并到一
列
中
。例如,输入
dataframe
: ? 我如何在
pyspark
中
做到这一点?
浏览 57
提问于2021-06-18
得票数 2
回答已采纳
1
回答
从
Pyspark
Dataframe
解析
JSON字符串
、
、
、
、
我有一个嵌套
的
JSON字典,我需要将其转换为spark
dataframe
。此JSON字典显示在数据框
列
中
。我一直在尝试使用"from_json“和"get_json_object”来
解析
dataframe
列
中
存在
的
字典,但一直无法读取数据。以下是我一直在尝试读取
的
源数据
的
最小片段: {"value": "\u0000\u0000\u0000\u00
浏览 36
提问于2021-04-01
得票数 1
回答已采纳
1
回答
星火
DataFrame
如何区分不同
的
VectorUDT对象?
、
、
、
、
我正在尝试理解
DataFrame
列
类型。当然,
DataFrame
不是一个物化
的
对象,它只是一组Spark
的
指令,将来要转换成代码。但我认为,这个类型列表代表了在执行操作时JVM
中
可能出现
的
对象类型。()root |-- SparseVector'> De
浏览 1
提问于2016-07-31
得票数 7
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券