使用PySpark的数据帧中的前N列

文章/答案/技术大牛

发布

1回答

python、scala、apache-spark、pyspark

如何选择数据框中的前N列并使其成为另一个数据框？有一个包含180列的DF，我想创建另一个包含前105列的DF，不在脚本中隐式提及列名。

浏览 42提问于2021-02-20得票数 0

回答已采纳

0回答

减去Pandas或Pyspark Dataframe中的连续列

python、pandas、pyspark、multiple-columns、subtraction

我想在pandas或pyspark数据帧中执行以下操作，但我仍然没有找到解决方案。我描述的操作可以在下图中看到。请记住，输出数据帧在第一列上不会有任何值，因为输入表中的第一列不能被前一列减去，因为它不存在。

浏览 1提问于2016-07-12得票数 4

回答已采纳

1回答

Pyspark将数组列分解为带滑动窗口的子列表

python、apache-spark、pyspark、apache-spark-sql

我在PySpark中有一个行，我想在给定一个列中的一个值的情况下将其分成几个较小的行。生成的df将如下所示： output_df = spark.createDataFrame([| 2|[1, 2]| 3|| 2|[3, 4]| 5| +---+------+------+ 关于如何拆分列表以使指

浏览 44提问于2021-08-16得票数 1

回答已采纳

1回答

将列有条件地添加到数据帧中

python、apache-spark、dataframe、pyspark、multiple-columns

我在PySpark中有一个数据帧。我想有条件地在数据框架中添加一列。如果数据帧没有列，那么添加一个带有null值的列。如果列存在，则不执行任何操作，并返回与新数据帧相同的数据帧。如何在PySpark中传递条件语句

浏览 6提问于2017-01-20得票数 0

回答已采纳

2回答

PySpark列向绑定

pyspark

在PySpark中有什么特定的方法可以像我们在r中那样绑定两个数据帧吗？我需要在PySpark中同时绑定数据帧和作为一个数据帧。

浏览 1提问于2017-08-30得票数 3

1回答

Spark使用前一行中的值向dataframe添加新列

python、apache-spark、dataframe、pyspark、apache-spark-sql

我想知道如何在Spark (Pyspark)中实现以下内容+--+---++--+---++--+---++--+---++--+---++--+---++--+---+-------++--+---+-------++--+---+-------+ |3 |7.0|

浏览 50提问于2015-12-16得票数 38

回答已采纳

1回答

无法在PySpark SQLContext DataFrame中显示列

python、dataframe、pyspark

如果我输入： df[['avg_wind_speed_9am']].head() 它返回： Row(avg_wind_speed_9am=2.080354199999768) 我不明白，通常它应该打印一列。下面是我导入数据帧的方式： from pyspark.sql import SQLContextdf = sqlContext.read.loadbig-data-4/daily_weather.csv',

浏览 15提问于2020-11-09得票数 0

1回答

将多个PySpark DataFrames与MergeSchema合并

python、pyspark、pyspark-dataframes

我想将多个PySpark数据帧合并到一个PySpark数据帧中。它们都来自相同的模式，但是它们可能会有所不同，因为有时会缺少一些列(例如，模式通常包含200个具有已定义数据类型的列，其中dataFrame A有120列，dataFrame B有60列)。是否有可能在不写入和读取所有数据帧的情况

浏览 2提问于2020-06-22得票数 0

2回答

如何使用PySpark将这些多个csv文件(大约130,000个)有效地合并为一个大型数据集？

python、apache-spark、memory、pyspark、bigdata

我之前发布了这个问题，并得到了一些使用PySpark的建议。下面的压缩文件()包含一个名为data的文件夹，其中包含大约130,000个csv文件。我想把它们合并到一个单独的数据帧中。我有16 of的RAM，当我访问前几百个文件时，我一直在耗尽RAM。这些文件的总大小只有300-400MB的数据。所以现在我改用PySpark，但是我不知道连接

浏览 14提问于2020-02-17得票数 2

回答已采纳

2回答

如何检查来自不同数据帧的列值？

python、apache-spark、pyspark、apache-spark-sql

我有两个pyspark数据帧，我想检查第一个数据帧列值是否存在于第二列dataframe.If第一个数据帧列值不存在于第二个数据帧列中，我需要确定这些值并将其写入list.Is有没有更好的方法来使用pyspark感谢您的回复。 df[Name].show()Ora

浏览 37提问于2020-09-03得票数 0

回答已采纳

1回答

在火花中使用循环连接不同的DataFrames

apache-spark、pyspark

我在一个文件中有5个CSV文件，并希望将它们连接到Pyspark中的一个数据框架中:我使用代码()下面的代码for n inname_file:

浏览 0提问于2022-02-06得票数 1

回答已采纳

1回答

Pyspark:在groupBy之后删除列条件中的行

pyspark、apache-spark-sql

这是我的输入数据帧：1 Y2 a3 Nid val 2 a 3 N 我想在val中同时包含Y和N的列id上进行分组，然后删除val列包含"N“的行。请帮我解决这个问题，因为我是pyspark的初学者。

浏览 7提问于2018-09-06得票数 2

回答已采纳

1回答

Python spark从dataframe中提取字符

python-2.7、apache-spark、pyspark

我在spark中有一个数据帧，大概是这样的：------ | ----2 | SOMEOTHERCHARACTERS3 | ANOTHERSTRING我想要做的是从列中提取前5个字符加上第8个字符，并创建一个新列，如下所示：1 | ST

浏览 0提问于2016-12-02得票数 13

回答已采纳

3回答

我可以将pandas数据帧转换为spark rdd吗？

pyspark

Pbm： a)读取一个本地文件到Panda dataframe中，比如PD_DF。b)操纵/海量PD_DF并添加列到dataframe中。c)需要使用spark将PD_DF写到HDFS。

浏览 0提问于2015-04-15得票数 4

1回答

pyspark将数组类型的列拆分成多列

python-3.x、pyspark

在对数据集运行pyspark中的ALS算法后，我遇到了一个最终的数据帧，如下所示 ? 推荐的列是数组类型，现在我想拆分这一列，我的最终数据帧应该如下所示 ? 谁能建议我，哪个pyspark函数可以用来形成这个数据帧？数据帧的模式 root |

浏览 61提问于2021-07-11得票数 0

回答已采纳

1回答

如何在Pyspark Dataframe中训练和测试拆分的时间序列数据

apache-spark、pyspark、apache-spark-sql、train-test-split

我想对排序后的Pyspark数据帧进行基于时间的训练测试拆分。假设前300行将在训练集中，下200行将在测试拆分中。我可以用以下命令选择前300行： train = df.show(300) 但是如何从Pyspark dataframe中选择最后200行呢？

浏览 14提问于2019-03-13得票数 1

1回答

Spark 2.0.2 Data Frame -如何添加由现有列的前两个字符组成的新列？

python、apache-spark、pyspark

我来自熊猫的背景，在一个简单的操作上，我正在与Spark 2.0.2 (PySpark)作斗争。如何向现有数据框添加新列，该数据框包含现有列的前两个字符。Diana", 6, "Singapore", 4)], ["FirstName", "Sales", "State", "Cost"])尝试#1 fr

浏览 3提问于2016-11-20得票数 0

1回答

pySpark 3.0如何裁剪所有列的空格[复制]

apache-spark、pyspark、apache-spark-sql

这个问题在这里已经有答案了：在Pyspark Dataframe中修剪 (3个答案) 3天前就关门了。对于此数据帧:如何修剪循环中每列的所有前导空格和尾随空格？, ) df.show(5) 我知道如何通过如下方式指定每一列，但需要对循环中的

浏览 19提问于2021-02-26得票数 0

回答已采纳

1回答

windowPartitionBy和pyspark中的重新分区

apache-spark、pyspark、apache-spark-sql、sparkr

我在SparkR中有一个小代码，我想把它转换成pyspark。我对这个windowPartitionBy并不熟悉，并且重新分区。你能帮我了解一下这段代码是做什么的吗？

浏览 34提问于2020-12-18得票数 0

回答已采纳

1回答

如何遍历PySpark数据帧并打印前5次迭代？

python、dataframe、loops、pyspark

我有一个由一列和十行组成的pyspark数据帧。我在上面的代码中删除了其他列。它看起来是这样的： +--------------------++--------------------+|Shattered Image (...|+-------------------

浏览 17提问于2020-11-08得票数 1

回答已采纳

点击加载更多