如何根据行号列表拆分pyspark数据帧的行？

文章/答案/技术大牛

发布

1回答

、、、

我已经创建了一个pyspark数据帧，形象化地看起来像这样： >>> df ------------------------------30 | 50 | ... |300 | 350 | 50 | ... |500 | 5 然后我还创建了随机的行号列表，如下所示： my_list = [[2, 5],[4, 1,

浏览 16提问于2019-04-18得票数 0

回答已采纳

1回答

如何在PySpark的Pandas中使用iloc获得相同的结果？

、、

在Pandas dataframe中，我可以使用data.iloc[1:1000,:]获取前1000行。如何在PySpark中做到这一点？

浏览 24提问于2021-01-11得票数 1

回答已采纳

1回答

如何在Pyspark Dataframe中训练和测试拆分的时间序列数据

、、、

我想对排序后的Pyspark数据帧进行基于时间的训练测试拆分。假设前300行将在训练集中，下200行将在测试拆分中。我可以用以下命令选择前300行： train = df.show(300) 但是如何从Pyspark dataframe中选择最后200行呢？

浏览 14提问于2019-03-13得票数 1

1回答

拆分数据帧并有新的行号

、

当我将数据分割成两个新的数据帧时，两个新数据帧的行号将索引原始数据帧。例如，如果dfA有行号1、2、3、4；我想创建两个基于交替行的新数据帧(因此，行1和3转到dfB，行2和4转到dfC)。但是我希望行号在dfB和dfC中有新的索引，这样实际上dfB和df

浏览 5提问于2016-03-16得票数 0

回答已采纳

2回答

在火花中放置行

如何根据行号/行索引值的值删除Pyspark中的行值？我对Pyspark (和编码)很陌生--我尝试过编码一些东西，但是它不起作用。

浏览 1提问于2019-04-08得票数 3

回答已采纳

1回答

Pyspark将数组列分解为带滑动窗口的子列表

、、、

我在PySpark中有一个行，我想在给定一个列中的一个值的情况下将其分成几个较小的行。+------------++---+------------++---+------------+ 我想用一个固定大小的滑动窗口将每一行分解成多个存留物生成的df将如下所示： output_df = spark.createDataFrame([ (2, [0,

浏览 44提问于2021-08-16得票数 1

回答已采纳

2回答

如何用按行号范围对列表中的数据帧进行子集？

、、

我有一个数据帧的列表。我想提取每个数据帧的前248行，然后将它们绑定到一个数据框架中。 allData是数据帧的列表。我尝试过在lapply中使用subset，但是我不知道如何引用其中的行号。subset函数的“子集”参数似乎只接受逻辑向量。- lapply(allData, subset,

浏览 0提问于2019-06-25得票数 3

回答已采纳

0回答

行号的配置单元查询

、、、

我在pyspark上工作，需要编写一个从hive表中读取数据并返回包含所有列和行号的pyspark数据帧的查询。这是我尝试过的：这个查询在hive中运行得很好，但是当我从pyspark注意:我不希望以任何特定的顺序对行进行排序，我只需要表中所有行</e

浏览 2提问于2017-12-06得票数 0

1回答

如何获取row_number is pyspark数据帧

、、、

为了排名，我需要让row_number是一个pyspark数据帧。我看到在pyspark的窗口函数中有row_number函数，但这是使用HiveContext所必需的。我尝试用HiveContext替换sqlContext self.sc = pyspark.SparkContext()但是它现在抛出了异常TypeError：'JavaPackage‘对象

浏览 0提问于2016-10-30得票数 2

2回答

在R中将一个大型数据帧逐行拆分为多个数据帧

、、、

我有一个包含超过1m条记录和超过40个变量的大型数据帧，我希望通过一个循环来更新这些记录，以防止出现故障，并且文件的大小每次都不同。我想将这100多万行拆分成n个较小的集合，每个集合都有一个新的数据帧名称，例如以1,2，...，n，newdf1，newdf2，newdf3，...结尾。R中拆分函数只拆分向量，但它仍然在数据帧中，而不是创建

浏览 1提问于2020-08-26得票数 0

2回答

在r中，如何从单个数据帧中分割随机替换的数据帧？

我在r中有一个有1000行的数据帧，我想把它分成10个数据帧，每个数据帧都有100行采样替换为False，这样我就可以得到所有的1000行数据，如何在循环中这样做，并将所有的10个数据帧作为列表存储，或者根据索引逐一使用的任何有效方法- read.csv("data.csv"

浏览 2提问于2019-05-23得票数 0

回答已采纳

1回答

PySpark中连字符分隔符上的分割数据帧列

我很难根据连字符分隔符将数据帧列拆分为两行。from pyspark.mllib.linalg.distributed import IndexedRow +----------+| 12-cheese||11-almonds|所以我想要两个列，一个是数字的</

浏览 0提问于2019-05-10得票数 0

回答已采纳

2回答

优化PySpark与pandas DataFrames之间的转换

、、、、

我有一个13M行的pyspark数据帧，我想把它转换成pandas数据帧。然后，将根据其他参数以不同的频率(例如1秒、1分钟、10分钟)对数据帧进行重新采样以进行进一步分析。从文献[，]中，我发现使用以下任何一行都可以加快pyspark到pandas数据帧之间的转换： spark.conf.set("

浏览 11提问于2021-11-19得票数 0

1回答

根据条件将pyspark数据帧拆分成多个数据帧

、、、、

(价格)来拆分数据。如果关于' class‘的sum(价格)大于’0‘，那么这个数据应该进入一个数据帧。如果关于' class‘的sum(价格)小于’0‘，那么这个数据应该进入一个数据帧。-30 CANADA6 C -5 US 使用pyspark将数据进一步写入为两个不同的csv文件。

浏览 18提问于2021-01-13得票数 0

回答已采纳

3回答

Pyspark:将多个数组列拆分为行

、、、、

我有一个数据帧，它有一行和几列。其中一些列是单个值，其他列是列表。所有列表列的长度都相同。我希望将每个列表列拆分为单独的行，同时保持任何非列表列的原样。示例DF：from pyspark.sql import SQLContext from pyspark.sql.functio

浏览 2提问于2016-12-08得票数 78

回答已采纳

2回答

删除R中行时如何自动缩小R数据帧中的行号

、、

我很难正确地缩小数据帧中的行号。mydata <- mydata[-c(3, 7, 9, 199),] 当我运行这个命令时，3,7,9,199行从列表中消失，但是行号不会自动缩小到1

浏览 4提问于2012-09-11得票数 7

回答已采纳

2回答

如何从列中指定的列表创建子列

、、

如何在嵌套在dataframe列中的列表之外创建列我希望将消息列中的数据拆分为子列，例如到目前为止，我已经根据逗号拆分了数据因为数据不是json格式的，所以我不能对它使用json.loads。我使用下面的代码拆分它for i in df['t

浏览 1提问于2019-03-28得票数 0

1回答

如何根据行的内容拆分pyspark数据

、、、、

我想根据DataFrame中一行的第一个字符来分割文件。原始数据有一列，数据包括输入样例文件(Pyspark)：我想要一个DataFrame文件名作为数据的分割。预期输出(Pyspark)

浏览 3提问于2019-10-10得票数 1

回答已采纳

2回答

如何从R中的数据帧列表中选择行

、、、

我有10个数据帧的列表，我想按名称选择每个数据帧的一行。该列的名称为name。我想要选择name=Ready所在的每一行。我尝试了一些方法。如果我声明了确切的行号(这里是2)，这就行了： lapply(list, `[` ,c(2),) 但由于数据帧中的行号不同，我将应用类似于name=Re

浏览 6提问于2021-07-26得票数 0

回答已采纳

1回答

pyspark自动增量列

、

我有一个下面格式的pyspark数据帧。I | descI |+----+--------+------+-------------+ 你能告诉我如何使用Pyspark做到这一点吗？

浏览 0提问于2020-11-14得票数 0

点击加载更多