PySpark嵌套数据帧_PySpark:收集包含嵌套列的数据帧作为字典_PySpark数据帧转换 - 腾讯云开发者社区

python、apache-spark、pyspark、apache-spark-sql

浏览 4提问于2021-12-12得票数 0

回答已采纳

1回答

将pyspark/pandas数据帧中的嵌套dict值转换为列和行

python-3.x、pandas、dictionary、pyspark、pyspark-dataframes

我有一个只有一条记录的pyspark数据帧。它包含一个id字段和一个"value“字段。value字段包含嵌套的语句，如下面的inputdf所示。我想创建一个新的数据帧，如下面的outputdf所示，其中type列是inputdf中value字段中嵌套dict的键，value和active列包含嵌套dict中的相应值。如果更简单，可以使用.toPandas()将数据帧转换为熊猫数据

浏览 0提问于2020-08-08得票数 1

1回答

将array<string>转换为string pyspark* dataframe*

csv、nested、pyspark、spark-dataframe、flatten

我有一个pyspark dataframe，其中一些列包含字符串数组(其中一列包含嵌套数组)。因此，我无法将数据帧写入csv。下面是我正在处理的数据帧的一个示例- |ID | emailed| clicked| Null +-------+----------------

浏览 2提问于2017-09-11得票数 5

回答已采纳

1回答

PySpark嵌套数据帧

python、json、dataframe、apache-spark、pyspark

我需要一些Python Pyspark帮助。我有一个源对象，如下所示: Edit:两个列表都是numpy数据类型的numpy数组 obj = [("thing1", ([1,2,3], [0.1,0.2,0.3]), ("thing2有没有办法创建spark数据帧，让它看起来像这样。其中，"column2“中的对象本质上是另一个由两列组成的数据帧，标签分别为"label1”和"label2"： "

浏览 23提问于2021-11-19得票数 1

1回答

将3级嵌套字典键值转换为pyspark* dataframe*

dataframe、apache-spark、pyspark、partition

我有一个Pyspark数据框架，看起来像这样： ? 我想提取"dic“列中的那些嵌套字典，并将它们转换为PySpark数据帧。如下所示： ? 

浏览 22提问于2020-07-22得票数 0

1回答

Pandas版本0.22.0 - drop_duplicates()获得意外的关键字参数'keep‘

python、pandas、python-2.7、dataframe

我正在尝试使用子集(drop_duplicates=‘’，keep=False)在我的数据帧中删除重复项。Notebook中工作正常，但当我试图通过终端以.py文件的形式执行时，我得到了以下错误： Traceback (most recent call last): File "/home/source/fork/PySpark_Analytics

浏览 110提问于2019-06-20得票数 1

1回答

将Google Analytics中的JSON数据保存到关系数据库的最佳方法

python、json、pandas、google-analytics-api、rdbms

我正在寻找并行加载Google Analytics数据到关系数据库的最有效方法，这些数据以嵌套对象结构表示在JSON文件中，以便以后收集和分析这些统计数据。我发现了可以将嵌套数据扁平化为平面结构的pandas.io.json.json_normalize，还有一个将json转换为数据帧(如所述)的pyspark解决方案，但不确定是否存在性能问题。你能描述一下从Google Analytics API加载数据<

浏览 0提问于2019-12-09得票数 0

5回答

展平嵌套的Spark数据帧

apache-spark、pyspark、spark-dataframe

有没有办法扁平化一个任意嵌套的Spark Dataframe？我看到的大多数工作都是为特定的模式编写的，我希望能够用不同的嵌套类型(例如StructType、ArrayType、MapType等)来通用地扁平化数据帧。希望将其调整为具有如下结构的扁平表：field2nested_array.nested_field2 仅供参考，寻找对Pyspark

浏览 0提问于2015-12-14得票数 14

2回答

将PySpark数据帧转换为PySpark.pandas数据帧

python-3.x、apache-spark、pyspark

在链接中，用户可以在Spark3.2中的PySpark之上与熊猫合作。是否需要很长时间才能将PySpark数据帧转换为PySpark熊猫数据框架？我知道将PySpark数据帧转换为熊猫数据框架需要很长时间。

浏览 9提问于2022-03-02得票数 1

回答已采纳

1回答

使用PySpark从Blob存储容器加载CSV文件

csv、apache-spark、pyspark、azure-blob-storage

我无法使用Jupyter Notebook中的PySpark将CSV文件从Azure Blob Storage直接加载到RDD中。我知道我也可以使用Pandas将数据加载到Notebook中，但之后我需要将Panda DF转换为RDD。我理想的解决方案应该是这样的，但是这个特定的代码给我的错误是它不能推断出CSV的模式。inferSchema", "true").option("url",source).load() 我也看过这个答案：reading a csv file from azure blob s

浏览 21提问于2019-04-28得票数 0

2回答

PySpark列向绑定

pyspark

在PySpark中有什么特定的方法可以像我们在r中那样绑定两个数据帧吗？我需要在PySpark中同时绑定数据帧和作为一个数据帧。

浏览 1提问于2017-08-30得票数 3

1回答

如何将Azure Synapse Dataframe转换为JSON on Databricks？

azure、pyspark、databricks、azure-databricks、azure-synapse

我是否可以将Azure Synapse Dataframe转换为JSON？因为当我尝试的时候，它得到了一个错误。我使用脚本作为Pandas DataFrame函数df.to_json()，因为我假设Azure Synapse DataFrame与Pandas Dataframe相同。class UtilAzSynapse(UtilAzSynapse): def write_to_synapse(df, table, write_mode, url, tempDir):

浏览 19提问于2021-05-31得票数 0

回答已采纳

1回答

使用Pyspark访问Dataframe的行内行(嵌套JSON)

json、dataframe、pyspark、row

使用pyspark，我正在读取多个包含一个JSON对象的文件，每个文件都来自一个文件夹contentdata2，.option("mode", "DROPMALFORMED

浏览 0提问于2018-03-21得票数 6

2回答

火花:如何解析嵌套列表的JSON字符串以激发数据框架？

python、apache-spark、pyspark、apache-spark-sql

如何解析嵌套列表中的JSON字符串以激发pyspark中的数据帧？输入数据框架：|url |json|+---------------------------------------+import pysparkimport pyspa

浏览 1提问于2021-02-08得票数 2

回答已采纳

1回答

从Pyspark* Dataframe解析JSON字符串*

python、json、apache-spark、pyspark、apache-spark-sql

我有一个嵌套的JSON字典，我需要将其转换为spark dataframe。此JSON字典显示在数据框列中。我一直在尝试使用"from_json“和"get_json_object”来解析dataframe列中存在的字典，但一直无法读取数据。以下是我一直在尝试读取的源数据的最小片段： {"value": "\u0000\u0000\u0000\u0000/{\"context\":\"data\"}"} 我需要提取

浏览 36提问于2021-04-01得票数 1

回答已采纳

1回答

Pyspark管道在pandas数据帧上的应用

python、pandas、dataframe、pyspark

我有一个pyspark管道(包含估算和一个机器学习模型)和一个pandas数据帧。我是否可以在不将其转换为Pyspark dataframe的情况下将管道应用于此pandas数据帧？如果不可能，我如何有效地使用pyspark管道来生成对pandas数据帧的预测？

浏览 3提问于2021-09-13得票数 1

1回答

在PySpark* (本地)上编程与在Jupyter Notebook上使用Python编程*

python、apache-spark、pyspark

最近我一直在使用pySpark，所以我已经习惯了它的语法、不同的API和HiveContext函数。很多时候，当我开始处理一个项目时，我并不完全知道它的范围是什么，或者输入数据的大小，所以有时我最终需要分布式计算的全部功能，而在另一些情况下，我最终得到了一些在我的本地计算机上运行良好的脚本。我的问题是，与常规的Python/Pandas相比，将pySpark作为我的主要语言进行编码是否存在劣势，即使只是进行一些探索性分析？我这么问主要是因为在不同语言之间切换的认知工作，以及如果我需要分发工作，将代码从Python迁移到py

浏览 0提问于2016-07-27得票数 1

1回答

基于一列将pyspark.sql dataFrame拆分为多个表

python、dataframe、pyspark、pyspark-sql

给定一个pyspark.sql.dataframe.DataFrame x：name day earnings revenue Oliver 1 100 44 Oliver415 54 John 3 33 10 John 4 82 82 是否可以根据名称列(作为索引)将表拆分为两个表，并将这两个表嵌套在同一个对象下我尝试过以下方法：dict(tuple(x.groupby('name')))，它在Pandas数据</em

浏览 0提问于2018-10-09得票数 0

1回答

将列有条件地添加到数据帧中

python、apache-spark、dataframe、pyspark、multiple-columns

我在PySpark中有一个数据帧。我想有条件地在数据框架中添加一列。如果数据帧没有列，那么添加一个带有null值的列。如果列存在，则不执行任何操作，并返回与新数据帧相同的数据帧。如何在PySpark中传递条件语句

浏览 6提问于2017-01-20得票数 0

回答已采纳

1回答

Pyspark使用窗口函数和我自己的函数

python、pandas、pyspark、window

我希望用pyspark和spark dataframe做同样的事情。我知道我必须使用窗口函数，但它比熊猫更难理解，所以我迷路了…… 我有这个，但我不知道如何让它工作。

浏览 29提问于2020-06-26得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

处理依赖型PySpark DataFrames

将pyspark/pandas数据帧中的嵌套dict值转换为列和行

将array<string>转换为string pyspark* dataframe*

PySpark嵌套数据帧

将3级嵌套字典键值转换为pyspark* dataframe*

Pandas版本0.22.0 - drop_duplicates()获得意外的关键字参数'keep‘

将Google Analytics中的JSON数据保存到关系数据库的最佳方法

展平嵌套的Spark数据帧

将PySpark数据帧转换为PySpark.pandas数据帧

使用PySpark从Blob存储容器加载CSV文件

PySpark列向绑定

如何将Azure Synapse Dataframe转换为JSON on Databricks？

使用Pyspark访问Dataframe的行内行(嵌套JSON)

火花:如何解析嵌套列表的JSON字符串以激发数据框架？

从Pyspark* Dataframe解析JSON字符串*

Pyspark管道在pandas数据帧上的应用

在PySpark* (本地)上编程与在Jupyter Notebook上使用Python编程*

基于一列将pyspark.sql dataFrame拆分为多个表

将列有条件地添加到数据帧中

Pyspark使用窗口函数和我自己的函数

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐