Pyspark转换:列名到行

文章/答案/技术大牛

发布

2回答

、、

我正在使用pyspark，并且想要转换这个spark数据框架： +----+-------------------------------+--------------------------编辑:这就是我解决这个问题的方法： from pyspark.sql.functions import array, col, explode, struct, lit df =

浏览 12提问于2019-12-11得票数 0

2回答

作为记录数据出现在Pyspark数据库中的列名

、、、

我在这里面临的问题是，当用下面的代码执行时，列名也被显示为控制台中的记录 .select("*")df1:pyspark.sql.dataframe.DataFr

浏览 9提问于2022-10-21得票数 0

2回答

在pySpark中按条件分割数据

、、、

我想创建两个dataframes，1)只使用True列名，2)只使用假列名。我最初的想法是创建两个dataframes (因为它们稍后将被附加到一个更大的数据集中)，或者我还考虑将适当的列名转换为一个列表，然后将列表名称转换为列名。我是pySpark新手，我想知道如何在不硬编码任何列名(我有几百列)的情况下做到这一点，我知道我不能遍历行，因为这样做会违背pySpark的目的。

浏览 3提问于2020-05-07得票数 1

回答已采纳

1回答

.agg(计数([col列表))

、、

from pyspark.sql import functions as Ffrom pyspark.sql.session即使我试着把一列我得到- py4j\java_collections.py"，第500行，在对象中的元素转换中: TypeError：&

浏览 3提问于2020-02-26得票数 0

回答已采纳

1回答

如何将spark dataframe列名和行数据转换为json数据？

、

我有一个pyspark数据帧 spark = SparkSession\ .appName("NPS_TF")\ ], ["Assign", "xs[0]","xs[1]","xs[2]"]) df2.limit(1).show() 如何将部分dataframe列名和第一行数据<e

浏览 10提问于2019-02-13得票数 0

回答已采纳

1回答

PySpark -从文本文件创建数据框

、、、、

第一行是列名，例如"START_TIME"，"END_TIME"，"SIZE"..大约100个列名。然后从文件中删除除某些特定列之外的所有列。from pyspark import SparkContext from pyspar

浏览 0提问于2016-12-14得票数 12

回答已采纳

1回答

如何使用其他数据create (PySpark)创建数据文件？

、、

我使用的是PySpark v1.6.1，我想使用另一种方法创建一个数据文件：现在正在使用.map(func)使用该函数创建一个RDD (该函数从原始类型中的一行进行转换，并返回带有新类型的一行

浏览 0提问于2017-12-27得票数 3

回答已采纳

1回答

PySpark DataFrame将行值转换为列名

、

我有一份如下格式的：我需要把它转化成这样的东西：有什么帮助吗？

浏览 2提问于2022-04-10得票数 0

回答已采纳

2回答

有没有一种方法可以在不读取整个数据集的情况下获得pyspark中的dataframe的列名？

、、、

我在我的HDFS环境中有100M+数据集，比如说huges数据集，它们都围绕huges行。我希望只获取每个数据集的列名，而不读取整个数据集，因为这样做需要太长时间。那么，在不浪费时间和内存的情况下获得列名的最好方法是什么？谢谢..。

浏览 1提问于2021-01-05得票数 0

1回答

聚合函数Spark

、、、

我正在使用Pyskem2.2rn，我的代码由这个函数崩溃，我不明白为什么它会在->上崩溃import Pyspark.sql.functions as F t.withColumns('column_name

浏览 2提问于2022-02-11得票数 0

1回答

将元组的RDD转换为Dataframe

、、、、

3.6243409329763652),('n', 52.743253562212828),('v', 11.644347760553064)]]'n', 's' 's' 在第二排。因

浏览 3提问于2017-06-01得票数 0

回答已采纳

1回答

与Scala相比，使用groupBy的Pyspark聚合非常慢。

、、、

我移植了一个Scala代码，它可以简单地聚合到Python中：from utils import notHeader, parse, pprint from pyspark

浏览 5提问于2017-01-25得票数 0

1回答

[消]电火花数据表列名

、、、

什么是限制火花放电数据的列名。我对下面的代码有异议。%livy.pyspark它给了..。resolve column name "spatialElementLabel.value" among (lightFixtureID.value, spatialElementLabel.value);' 列名显然是正确键入的我从熊猫的数据转换</

浏览 3提问于2017-06-07得票数 0

回答已采纳

6回答

PySpark下降行

、、

如何在PySpark中从RDD中删除行？特别是第一行，因为这往往在我的数据集中包含列名。通过仔细阅读API，我似乎找不到一种简单的方法来做到这一点。当然，我可以通过Bash / HDFS来完成这个任务，但我只想知道这是否可以在PySpark内部完成。

浏览 5提问于2014-07-13得票数 28

回答已采纳

1回答

在pyspark中编写SQL时面临的问题

、、、、

我正在尝试将下面的SQL代码转换为pyspark。有人能帮帮我吗？table B这里，util、count、procs是列名在pyspark中编码时，我可以创建一个新的列'col‘，如下所示： df1 = df1.withColumn("col", case condition ,a)

浏览 10提问于2021-05-25得票数 0

回答已采纳

1回答

在PySpark中将二维矩阵-数据转换为平面表

、、、、

我有一个PySpark数据文件，如下所示： a 997 154.5 0.8 ..我想把这个转换成一个像这样的平面表：a header2 154.5b header1 0.3等。每个标题列名都是唯一的。第一个列名是ID。如何在PySpark中最有效地转换这一点？我可以遍历DataF

浏览 0提问于2018-10-25得票数 0

回答已采纳

2回答

如何使用Java将数据库的列名更改为大写

、、、

我有一些混合的列名，比如sum(TXN_VOL)，我想把它们转换成大写字母，比如SUM(TXN_VOL)我尝试的是: Dataset<Row编辑对于Scala和PySpark</

浏览 1提问于2019-01-02得票数 0

回答已采纳

1回答

Pyspark数据框架操作的单元测试用例

、、、

我已经用python写了一些带有sql上下文的代码，即pyspark，通过将csv转换为pyspark dataframe来对csv执行一些操作(df操作，如预处理、重命名列名、创建新列并将其附加到相同的有谁能帮我在pyspark的dataframe上写单元测试用例吗？或者给我一些数据帧上的测试用例的来源？

浏览 1提问于2016-04-14得票数 3

2回答

优化PySpark与pandas DataFrames之间的转换

、、、、

我有一个13M行的pyspark数据帧，我想把它转换成pandas数据帧。然后，将根据其他参数以不同的频率(例如1秒、1分钟、10分钟)对数据帧进行重新采样以进行进一步分析。从文献[，]中，我发现使用以下任何一行都可以加快pyspark到pandas数据帧之间的转换：spar

浏览 11提问于2021-11-19得票数 0

3回答

在PySpark中使用列表中的列按多个列分区

、、

我的问题类似于这个帖子：但是我使用的是Pyspark而不是Scala，我想以列表的形式传递我的列的列表。

浏览 15提问于2018-03-13得票数 17

回答已采纳

点击加载更多