如何解析pyspark的DataStreamReader中的json字符串列并创建数据帧

文章/答案/技术大牛

发布

1回答

、、、

messageDF = messageDFRaw.selectExpr("CAST(key AS STRING)", "CAST(value AS STRING) as dict") 当我打印来自上述查询的数据框时|key|dict| |#badbunny |{"channel": "#badbunny", "username": "mgat22", "message": "cool"}| 如

浏览 9提问于2019-02-15得票数 0

回答已采纳

1回答

如何在控制台上打印spark数据框名称

、

我是spark的新手。我们有没有内置的函数来打印刚才的数据框名称？

浏览 6提问于2020-02-17得票数 0

回答已采纳

1回答

如何在Apache火花中连接嵌套的json

、

有人能让我知道我连接嵌套JSON字段的尝试出了什么问题吗？目前的数据如下：在连接'name‘字段之后，应该只有一个值，例如'name’字段将只显示Lewis Hamilton，并且像wise一样显示'name‘字段中的其他值。我的代码会产生以下错误： Can't extract value from name#6976: need struct type but got string

浏览 6提问于2021-11-13得票数 1

回答已采纳

1回答

从PySpark中的复杂列中提取值

、、

我有一个PySpark数据帧，它有一个复杂的列，请参考下列值：1 [{"label":"animal","value":"cat"},{"label":null,"value":"George"}] 我想在PySpark dataframe中添加一个新列，它基本上将它转换为一个字符串列表。

浏览 0提问于2021-02-09得票数 0

2回答

从json模式表示创建spark数据帧模式

、

有没有办法将数据帧模式序列化为json，并在以后反序列化它？用例很简单:我有一个json配置文件，其中包含我需要读取的数据帧的模式。我希望能够从现有模式(在dataframe中)创建默认配置，并且能够通过从json字符串中读取相关模式来生成稍后使用的相关模式。

浏览 1提问于2016-12-04得票数 30

回答已采纳

1回答

处理火花流中的json字符串列表

、、

我试图转换我得到的输入火花流，以便创建一个数据。基本上，我收到一个json字符串列表，我希望从中提取数据。+----------+----------++----------+--------

浏览 3提问于2022-01-10得票数 0

2回答

火花:如何解析嵌套列表的JSON字符串以激发数据框架？

、、、

如何解析嵌套列表中的JSON字符串以激发pyspark中的数据帧？输入数据框架：|url |jsonimport pyspark.sql.functions as F spark = (py

浏览 1提问于2021-02-08得票数 2

回答已采纳

3回答

Pandas:有没有一种方法可以在不遇到AttributeError的情况下使用.str访问器来检查对象是否真的是一个字符串？

、、

我使用toPandas()将pyspark数据帧转换为pandas数据帧。但是，因为某些数据类型不对齐，所以pandas会将数据帧中的某些列强制转换为object。我想用实际的字符串在我的列上运行.str，但似乎不能让它工作(如果没有显式地找到首先要转换的列)。(作为参考，我尝试做的是，如果数据帧</e

浏览 1提问于2020-06-23得票数 1

1回答

如何在PySpark中读取大型JSON文件

、、、、

问题如何在PySpark 2<e

浏览 1提问于2018-02-10得票数 0

回答已采纳

0回答

如何在PySpark中创建一个返回字符串数组的自定义函数？

、、、、

我有一个返回字符串列表的udf。这应该不会太难。我在执行udf时传入了数据类型，因为它返回一个字符串数组：ArrayType(StringType)。现在，不知何故，这不起作用：df_subsets_concat.show(3,False) +-------------------df_subsets_concat.withColumn('subset', lab

浏览 6提问于2017-12-07得票数 26

回答已采纳

4回答

Pyspark:如何将spark dataframe转换为json并保存为json文件？

、、、

我正在尝试将我的pyspark sql dataframe转换为json，然后保存为文件。df_final = df_final.union(join_df) 我试过这样的东西。但是它创建了一个无效的json。df_final.coalesce(1).write.format('json').save(data_output_file+"createjson.

浏览 0提问于2018-11-22得票数 7

1回答

取消透视列pyspark* dataframe，其中value是字典列表*

、、、、

我已经从字典列表创建了一个pandas数据帧，并使用json_normalize取消了一列的透视。现在我必须将代码转换为使用pyspark而不是pandas。df = pd.json_normalize(list_json,'Messages',['ID']) 21122, true ,Testdescription1, 2

浏览 0提问于2021-03-10得票数 0

3回答

如何创建动态数据帧

、、、、

我试图创建一个数据框，我之所以以下面的方式指定创建数据框，是为了使其成为动态的，但表达式是作为字符串传递的，并且exec命令无法创建数据框并将其赋值给变量。下面是我的代码： value ='true' header='header'

浏览 18提问于2020-02-08得票数 0

2回答

将字符串转换为pyspark.sql.types.StructType pyspark

、

我试图在pyspark中创建空的dataframe，在pyspark中，我从外部JSON文件传递scehma，但是Json不允许我指定struct类型，所以我提到它是string。json文件： "OptionalEvents" : { "StructType([StructField('id',StringType(),

浏览 39提问于2021-08-23得票数 1

回答已采纳

1回答

如何从PySpark列表中删除/替换字符

、、、

我是Python/PySpark的新手，目前在Databricks中使用它。object" : ["191.168.192.103", "191.168.192.107"]}',),当我试着它不能正确解析JSON。结果数据</e

浏览 6提问于2019-11-15得票数 0

回答已采纳

5回答

修剪PySpark数据帧中的字符串列

、、、

从CSV文件创建Spark DataFrame后，我想修剪一列。我试过了：df是我的数据框，Product是我的表中的一列Column object

浏览 1提问于2016-02-02得票数 30

1回答

计算具有结构列类型的PySpark数据框中的空值或零

、、

我有一个混合了整数列、字符串列和结构列的PySpark数据框架。结构列可以是结构，但也可以只是null。null |4 | something | null |有没有什么简单的方法可以遍历整个数据帧并获得null/na/0值的计数，而不必分解结构列？例如

浏览 0提问于2021-11-27得票数 0

1回答

Pyspark -将特定字符串转换为日期格式

、

我有一个日期pyspark数据帧，其中有一个Mon-YY格式的字符串列，例如。‘’Jan 17‘，我正在尝试将其转换为日期列。我试过这样做，但没有成功： df.select(to_timestamp(df.t, 'MON-YY HH:mm:ss').alias('dt')) 有没有可能像在SQL中那样做，或者我需要编写一个特殊的函数来进行转换

浏览 7提问于2020-04-27得票数 0

2回答

从单个pyspark* dataframe返回多列*

、、、、

我正在尝试解析单个列的columns.My数据帧，并获取具有多个pyspark数据帧的数据帧，如下所示：0 1 2 {'d': 1, 'e':2}2 5 6 {'d': 5, &#x

浏览 40提问于2020-03-01得票数 0

回答已采纳

1回答

根据特定的列数据，将Pyspark数据分解为多个json文件？

、、、、

如何将此json文件拆分为多个json文件，并使用year将其保存在Pyspark目录中？":"Cherry", "cost": "300"} 另外，如果遇到不同的年份，如何以类似的方式推送文件：path.../2021/<all split json files>？一开始，我试着找出所有独特的水果，并</e

浏览 4提问于2022-01-19得票数 2

回答已采纳

点击加载更多