解析Pyspark dataframe中的XML列

文章/答案/技术大牛

发布

1回答

、、、

我是PySpark的新手，正在尝试解决一个数据问题。我有一个pyspark DF，它是用从MS SQL Server中提取的数据创建的，有2列: ID (整数)和XMLMsg (字符串)。第二列XMLMsg包含XML格式的数据。我们的目标是解析XML列，并使用从XMLMsg中提取的列在同一DF中创建其他

浏览 38提问于2020-08-15得票数 1

回答已采纳

1回答

修改Spark中的UDF以创建额外的键列

、、、

我有一个由几行数据组成的dataframe，以及一个需要解析的XML列。我能够用来自这个的下面的代码解析这个XMLimport pyspark.sql.functions as F ).s

浏览 8提问于2021-12-22得票数 0

1回答

TypeError:需要一个类似字节的对象，而不是“行”星图

、、

我正试图在我的DataFrame中将XML转换为JSON。我有以下几点 return json.dumps(xmltodict.parse(line)) process() File "&#

浏览 0提问于2018-03-13得票数 0

回答已采纳

2回答

使用UDF从PySpark* Dataframe解析XML列*

、、、

我有一个场景，在dataframe列中有XML数据。xml version="1....|2007|XML格式- <?xml version="1.0" encoding="utf-8"?

浏览 3提问于2020-11-20得票数 5

回答已采纳

1回答

解析电火花中的地址函数

、、、、

我想在PySpark中的dataframe中添加一个列，其中包含通过libpostal库解析的地址。import pyspark.sql.functions as sfdf = spark.read.parquet(path_hdfssf.concat(col("street"),sf.lit(" ") ,col(

浏览 1提问于2021-04-19得票数 2

1回答

将df转换为新的df并更改列的上下文。

、

我有一个dataframe df_test，我想将all列解析为一个新的df。另外，我希望使用if with语句来修改一列的上下文。试过这个：import pandas as pd df_cast= df_test.withColumn

浏览 3提问于2020-11-20得票数 0

回答已采纳

2回答

用不同的列合并两个星火数据格式，以获得所有列

、、

AUS null brand2 450 230 我需要我的结果数据brand2 450 230因此，我想要的df应该包含来自这两个数据的所有列，我还需要所有行中的Date_part --

浏览 3提问于2021-08-19得票数 0

回答已采纳

5回答

DataFrame对象没有属性“col”

在“火花:最终指南”中，它说： df.col("count") 但是，当我在包含列count的dataframe上运行后的代码时，就会得到错误'DataFrame' object

浏览 2提问于2018-08-12得票数 9

2回答

我有一个dataframe，它在一个列中存储一个JSON对象。我希望处理JSON对象来创建一个新的dataframe (列的数目和类型不同，每行将从JSON对象生成n个新行)。我在下面编写了这样的逻辑:在迭代原始数据集时，将字典(行)附加到列表中。for item in row.json_object['obj']: # create a dictionary to represent each r

浏览 4提问于2022-10-19得票数 1

回答已采纳

2回答

如何将pyspark* sql DataFrame保存为xml格式*

、、、、

我以拼图格式存储了一个pyspark sql dataframe。现在，我还想将其保存为xml格式。我该怎么做呢？直接将pyspark sql dataframe保存在xml中或将拼图转换为xml的解决方案，对我来说什么都行。提前谢谢。

浏览 0提问于2016-06-21得票数 0

1回答

将一个函数应用到多个文件中，将数据加载到

、

我有许多结构混乱的JSON文件。我想把这些解析成一个PySpark DataFrame。我编写了一个解析函数，并希望将其应用于目录中的每个文件，并将其输入到我的DataFrame中。我对PySpark完全陌生，所以任何帮助都是非常感谢的。我曾希望我能做一些事情来达到这样的效果： data_files =

浏览 4提问于2022-02-28得票数 0

回答已采纳

1回答

在PySpark* DataFrames中，为什么setitem没有完全实现？*

、、、

在PySpark中，我们不能使用传统的熊猫或R风格的符号来根据DataFrame中的旧列来制作新的列。例如，假设我试图连接两列：df['newcol'] = F.concat(df['col_1'], df['col_2']) 结果：TypeError:

浏览 1提问于2016-07-28得票数 1

回答已采纳

1回答

如何将电火花列(pyspark.sql.column.Column)转换为火花放电数据？

、、

我有一个用例来映射基于条件的pyspark列的元素。通过这个文档，我找不到一个函数来执行映射函数。因此，尝试使用pyspark映射函数，但无法将pyspark列转换为dataFrame带有时间戳字符串的pyspark列<

浏览 4提问于2021-11-19得票数 0

回答已采纳

1回答

jupyter笔记本上的spark xml

、、

我正试图在我的jupyter笔记本上运行spark，以便使用spark读取xml文件。from os import environ我发现这是利用它的方法。但是，当我试图导入com.databricks.spark.xml._时，我会看到一个

浏览 1提问于2021-03-17得票数 1

回答已采纳

1回答

pyspark.pandas API:构造共生矩阵，.dot()不支持数据作为输入。

、、、

我试图使用pyspark.pandas API在数据库上构造数据的共生矩阵。该代码在熊猫中运行良好，但在使用pyspark.pandas时出现了错误。coocc = psdf.T.dot(psdf)我得到了这个错误我查过医生了。pyspark.pandas.DataFrame.dot() 以串联作为输入。我尝试使用psdf.squeeze()将<em

浏览 8提问于2022-10-14得票数 0

回答已采纳

1回答

访问PySpark中的计数列

、、、、

code: mydf.show() | word|count|| she| 2208|| poet| 59|| active| 6|我想按降序顺序根据字数排序这个数据框架。 countDF = mydf.order

浏览 1提问于2016-07-14得票数 4

回答已采纳

2回答

替换星火DataFrame中的列值

、、

请您帮助我替换dataframes spark中的列值： ["2", "xxx", "company 1"],company 44", "company 2"],

浏览 1提问于2022-03-01得票数 0

回答已采纳

2回答

如何在pyspark中合并重复的列？

、、

我有一个pyspark dataframe，其中一些列具有相同的名称。我想将具有相同名称的所有列合并到一列中。例如，输入dataframe： ? 我如何在pyspark中做到这一点？

浏览 57提问于2021-06-18得票数 2

回答已采纳

1回答

从Pyspark* Dataframe解析JSON字符串*

、、、、

我有一个嵌套的JSON字典，我需要将其转换为spark dataframe。此JSON字典显示在数据框列中。我一直在尝试使用"from_json“和"get_json_object”来解析dataframe列中存在的字典，但一直无法读取数据。以下是我一直在尝试读取的源数据的最小片段： {"value": "\u0000\u0000\u0000\u00

浏览 36提问于2021-04-01得票数 1

回答已采纳

1回答

星火DataFrame如何区分不同的VectorUDT对象？

、、、、

我正在尝试理解DataFrame列类型。当然，DataFrame不是一个物化的对象，它只是一组Spark的指令，将来要转换成代码。但我认为，这个类型列表代表了在执行操作时JVM中可能出现的对象类型。()root |-- SparseVector'> De

浏览 1提问于2016-07-31得票数 7

回答已采纳

点击加载更多