PySpark:如何更新嵌套列？

文章/答案/技术大牛

发布

1回答

、、、

关于如何更新数据帧中的嵌套列，StackOverflow有几个答案。然而，它们中的一些看起来有点复杂。我该如何将其转换为Python？

浏览 11提问于2019-04-25得票数 0

回答已采纳

2回答

用json模式更新spark数据帧中的列

、、、、

element: struct (containsNull = true)我试过几件事；from pyspark.sql.types import StringTypename = &#

浏览 2提问于2016-11-14得票数 0

回答已采纳

1回答

将嵌套字典键值转换为pyspark数据

、、、

我有一个Pyspark数据文件，看起来像这样：我希望提取"dic“列中的嵌套字典，并将它们转换为PySpark数据格式。如下所示：请告诉我如何做到这一点。谢谢!

浏览 2提问于2020-07-20得票数 2

2回答

Pyspark :更改嵌套列数据类型

、

如何在Pyspark中更改嵌套列的数据类型？例如，如何将value的数据类型从string更改为int？

浏览 19提问于2017-08-23得票数 1

回答已采纳

6回答

用PySpark删除数据表的嵌套列

、、、、

我正在尝试使用PySpark从中的结构中删除一些嵌套列。我为Scala找到了这个，它似乎正是我想做的，但我不熟悉Scala，也不知道如何用Python编写它。

浏览 8提问于2017-07-12得票数 10

回答已采纳

1回答

将事务分组到嵌套模式中

、、

我希望将存储在pyspark.sql.dataframe.DataFrame "ddf“中的事务按列"key”分组，该列指示事务的来源(在本例中为customer )。分组是一个非常昂贵的过程，因此我想在嵌套模式中将组写入磁盘： (key, [[c1, c2, c3,...], ...])如何创建嵌套模式并将其写入磁盘？

浏览 6提问于2016-05-14得票数 0

回答已采纳

1回答

将3级嵌套字典键值转换为pyspark dataframe

、、、

我有一个Pyspark数据框架，看起来像这样： ? 我想提取"dic“列中的那些嵌套字典，并将它们转换为PySpark数据帧。如下所示： ? 请告诉我如何才能做到这一点。谢谢!

浏览 22提问于2020-07-22得票数 0

1回答

我正在尝试从嵌套的JSON (具有动态模式)中提取某些参数，并使用pyspark生成火花数据。我的代码非常适合于第1级(key:value)，但对于作为嵌套JSON一部分的每一对(key:value)都无法获得独立的列。注意-这不是确切的模式。它只是给出了模式的嵌套性质的概念。|[@realDonaldTrump...|我想要每个键的独立列。此外，请注意，您已经有一个父级密钥的同名文本。你将如何处理这种情况？理想情况下，我希望列<

浏览 2提问于2019-04-28得票数 0

回答已采纳

1回答

基于其他列更新列的Pyspark行

、

我有一个data frame在pyspark，如下所示。---+----++---+----+| 2| Tim|| 4| sam|现在，我向df添加了一个新列，| 2| Tim| null|| 4| sam| null|现在，我想根据一个条件更新pyspark中实现这一点。编辑--我不是在寻找if the语句，

浏览 1提问于2018-05-02得票数 0

回答已采纳

1回答

Pyspark:获取嵌套结构列的数据类型

、、、

问题是，当涉及到列的数据类型时，每个文件都有细微的差异。有人能给我解释一下检索嵌套结构列的数据类型的一般方法吗？在互联网上，我只能找到如何对它们做选择：https://sparkbyexamples.com/pyspark/pyspark-select-nested-struct-columns/ 如果我有这样的格式编辑: Json文件当然已经写在dataframe中，我的问题是如何查询dataframe以检索数据类型

浏览 42提问于2021-10-22得票数 0

2回答

通过JDBC从pyspark* dataframe插入到外部数据库表时的重复键更新*

、、、、

嗯，我使用的是PySpark，我有一个Spark dataframe，我使用它将数据插入到mysql表中。df.write.jdbc(url=url, table="myTable", mode="append") 我希望通过列值和特定数字的总和来更新列值(不在主键中我的问题是，我们如何像在my

浏览 4提问于2015-09-16得票数 12

2回答

将MinMaxScaler应用于PySpark中的多列

、、

我想将MinMaxScalar of PySpark应用于PySpark数据帧df的多列。到目前为止，我只知道如何将其应用于单个列，例如x。from pyspark.ml.feature import MinMaxScaler pdf = pd.DataFrame({'x':range(3), 'y':[1,2,5], 'z':[100,200,1000对于PySpark中的许多列，有什么方

浏览 0提问于2020-02-18得票数 17

回答已采纳

1回答

Pyspark使用一条when语句更新两列？

、

因此，我在PySpark中使用df.Withcolumn()来创建列，并使用F.when()来指定何时应该更新该列的条件。df = df.withColumn('ab', F.when(df['text']=="0", 1).otherwise(0)) 基本上，如果符合条件，我会将列更新为“1”。现在，如果相同的条件匹配，我想要更新同一df中的另一列(例如，df['text'

浏览 3提问于2016-10-19得票数 0

1回答

使用Pyspark从数组中读取JSON项？

、、、

我在从databricks中的Cosmos DB读取项目时遇到了一些问题，它似乎将JSON读取为字符串值，并将数据从JSON中读取到列中。我有一个名为ProductRanges的列，其中一行包含以下值： [ { "min": 0, "max": 99,我尝试使用分解并读取基于列值的模式，但它确实显示为'in vaild document'，我认为这可能是因为<e

浏览 29提问于2019-05-13得票数 4

回答已采纳

1回答

如何从其他列(withColumn)中将具有嵌套元素的列添加到数据格式中

、、

我有一个PySpark数据文件，它看起来像1 2 3 41 2 3 4 {"C:1", "C1:2", "C2:3", "C3:4"} 我尝试过，但是我不知道PySpark中正确的语法是什么，而不是这个问题，它是Scala如何</

浏览 1提问于2018-11-30得票数 0

回答已采纳

1回答

如何在需要拆分数据集时加速Pyspark编程

、

我认为这将占用时间，所以我选择了这样一种方式：(1)我使用pyspark读取所有的csv文件，生成一个大文件df。(2)我从df中获得了股票列表。然后进行迭代，每次我选择一个股票数据的pyspark，把它转移到熊猫数据中，在熊猫中计算它。最后，将该文件输出到本地文件中。from pyspark.sql import SparkSession spark=SparkSession.builder.appName('data_processin

浏览 4提问于2020-04-19得票数 0

1回答

(Py) SQL语法中的星火getItem()

、、

数组类型列的第n项可以使用getitem(n)检索.地图类型的列可以使用getItem(key)或'column.key'分开。数组有类似的语法吗？上下文:目标是以可读的方式从大规模嵌套的json中获取特定字段。from pyspark import SparkContext sc = SparkContext.getOrCreate(

浏览 4提问于2020-10-09得票数 0

回答已采纳

1回答

将array<string>转换为string pyspark* dataframe*

、、、、

我有一个pyspark dataframe，其中一些列包含字符串数组(其中一列包含嵌套数组)。因此，我无法将数据帧写入csv。| Null +-------+--------------------+---------+ 我对pyspark

浏览 2提问于2017-09-11得票数 5

回答已采纳

1回答

在PysparkSQL中爆炸JSON

、、、

我想爆炸一个嵌套的json到CSV文件。希望将嵌套的json解析为行和列。from pyspark.sql import SparkSessionfrom pyspark.sql.types import*from pyspark.sql import Row df=spark.read.option(

浏览 7提问于2021-11-18得票数 0

回答已采纳

1回答

如何读取大于3 3GB且嵌套元素中有重复列的json文件

、、、

我在Azure技术上工作，想要读取json文件，它超过3 3GB，并且在嵌套元素中有重复的列。我试过pyspark，数据流，pipeines。但不走运。你能建议我使用哪种技术吗？

浏览 34提问于2021-11-18得票数 0

点击加载更多