使用pyspark中的列索引删除同名的列

文章/答案/技术大牛

发布

1回答

、、、

这是我的数据帧，我正在尝试使用index删除同名的重复列： df = spark.createDataFrame([(1,2,3,4,5)],['c','b','a','a','b'])| c| b| a| a| b|| 1| 2| 3| 4| 5| +---+---+---+---+---+ 我拿到了数据帧

浏览 30提问于2019-12-19得票数 4

2回答

如何在pyspark中合并重复的列？

、、

我有一个pyspark dataframe，其中一些列具有相同的名称。我想将具有相同名称的所有列合并到一列中。例如，输入dataframe： ? 我如何在pyspark中做到这一点？

浏览 57提问于2021-06-18得票数 2

回答已采纳

2回答

如何使用PySpark为列中的项分配唯一ids？

、

例如，如果我有一个带有name列的dataframe，那么每个名称可以多次出现：| name ||Alice ||Alice ||Chloe |我希望有一个列，其中每个名称都从0开始获得一个唯一的id：| name | id ||Alice |0 ||Alice | 0 ||Chloe | 2 | +-

浏览 6提问于2022-09-13得票数 0

回答已采纳

1回答

删除所有相同值(例如0)的pyspark列的最快方法是什么？

、、、

我有一个巨大的pyspark dataframe，我需要从dataframe中删除所有全为0的列。features found above************ masterdata_raw = masterdata_raw.drop(col_)我已经尝试组合聚合，但是因为我试图在一个字典

浏览 0提问于2017-05-03得票数 1

1回答

火花放电管道中的用户定义变压器

、、、、

我正在尝试创建一个pyspark管道来运行一个分类模型。我的数据集有一个列，它是一个字符串。因此，在应用管道模型之前，我使用“StringIndexer”将其转换为数字。我的管道只包含两个阶段StringIndexer和ClassificationModel StringIndexer正在创建一个带有索引的新列，但是旧列也保留了。我想介绍一个新的变压器在管道中，以删除一个‘字符串’

浏览 0提问于2017-07-19得票数 2

回答已采纳

1回答

访问PySpark数据帧中的特定项目

、、

如何访问PySpark数据帧中某列的某个索引处的值?例如，我想访问一个名为"Category“的列的索引5处的值。我如何在PySpark语法中做到这一点呢？

浏览 2提问于2018-03-07得票数 10

回答已采纳

1回答

categoricalFeaturesInfo += (1 -> 7) java.lang.IllegalArgumentException:需求失败: DecisionTree要求maxBins (= 3)至少与每个分类特性中的值数目一样大考虑删除具有大量值的此功能和其他分类功能，或添加更多的培训示例。31，我尝试过maxBins = 32 (根据这些帖子中的答案)。就像试用n错误一样，我尝试了所有的值集，如2、3、10、15、50、10000，请参见相同<e

浏览 1提问于2017-11-20得票数 0

0回答

Pandas用列表替换列值

、、

我有一个dataframe df，其中一些列是字符串，另一些列是数字。我正在尝试将它们全部转换为数字。所以我想做的是这样的：le = preprocessing.LabelEncoder()newCol = le.transform(col)df.ix[:,i] = newCol 但这是行不通的。基本上我的问题是，当我不知道列名，只知道列索引时，如何从数据框中删除<

浏览 1提问于2017-06-18得票数 6

回答已采纳

1回答

在pyspark的现有dataframe中添加新列的方法是什么？

、、、

我已经在现有的数据框中添加了一个新列，但它没有反映在数据帧中。customerDf.withColumn("fullname",expr("concat(firstname,'|',lastname)"))有没有办法向现有的dataframe添加一个新的列我们只有一个选择(熊猫中的inplace=True)。我们在pyspark中有没有类似的功能？

浏览 4提问于2021-01-26得票数 0

1回答

Parquet文件中groupby的最佳实践

、、、

为了生成一个count聚合，我们需要对几个列进行分组。我们目前的战略是：读取Parquet文件(Dask或pyspark)，并在dataframe的索引上运行groupby。对于Parquet文件上高效的groupby来说，最佳实践是什

浏览 2提问于2017-07-09得票数 3

1回答

对于非聚集索引，下降索引和禁用索引之间是否存在性能差异？

、

我知道删除和禁用聚集索引之间有很大的区别，但我想了解非聚集索引。但从“插入、更新和删除的性能”的角度来看.禁用非聚集索引与完全删除索引之间是否存在性能差异？无论是在表编辑期间，还是在创建和重建之后？

浏览 0提问于2021-05-07得票数 0

2回答

将熊猫数据转换为PySpark数据下降指数

、、、、

我有一只叫data_clean的熊猫。看起来是这样的：我想把它转换成一个Spark，所以我使用方法：sparkDF = spark.createDataFrame(data_clean)与此相关的其他问题没有提到索引列消失的问题

浏览 3提问于2021-07-31得票数 2

回答已采纳

2回答

从PySpark* DataFrame列中删除元素*

我知道PySpark DataFrames是不可变的，所以我想创建一个新列，该列是根据应用到PySpark DataFrame的现有列的转换生成的。我的数据太大了，无法使用collect()。该列是唯一int列表(在给定列表中不重复int)，例如：[1,2][2,3] 上面是一个玩具例子，因为我的实际DataFrame

浏览 9提问于2017-01-12得票数 1

回答已采纳

1回答

如何访问Pandas中的重复列

、、

我在excel文件中有以下数据，具有相同名称的列。Parts Tanning Tanning TanningB 32 35 48 如何访问制革第2列或第3列中的数据？而不使用列索引号，而仅使用标题。有没有一种方法，不用真正重命名头文件？我目前使用的是列</e

浏览 15提问于2020-09-20得票数 0

回答已采纳

1回答

从星星之火数据中的列表中提取值，而不转换为熊猫

、、

我非常绿色的火花，所以我把它转换成一个熊猫DataFrame，然后使用地图功能，我提取所需的元素。问题是，数据是巨大的，因此这种方法是不可扩展的。让我花时间的是toPandas()命令。是否有从每一行访问列表中的值的选项？谢谢!

浏览 5提问于2021-12-09得票数 1

回答已采纳

3回答

如何在tidyverse中删除tibble中的重复列

、、

假设我的数据有两个相同的列，称为SYC SJ Equity。当我使用基本read.csv()将其导入到R中并将check.names设置为FALSE时，导入的数据包含两个具有相同名称的列。然后，我可以执行以下操作删除重复的列 df <- df %>% select(-contains("_")) 但是，如果数据位于.xlsx格式的</em

浏览 96提问于2019-09-27得票数 1

回答已采纳

1回答

在Dataframe中，如何根据条件从行中删除列？

、

当该行上的列值为零时，我想从行中删除该列。我不想从Dataframe中删除该列。仅当列值为零时，我才从该特定行中删除该列。我用的是Pyspark。

浏览 19提问于2020-04-09得票数 0

1回答

FInd数据帧中的第一个非零元素

、、

我正在处理一个pyspark dataframe，并尝试查看是否有一种方法可以提取spark dataframe中第一个非零元素的索引。我自己添加了索引列，因为pyspark不支持它，而不是pandas。

浏览 29提问于2021-10-08得票数 0

1回答

熊猫数据索引& loc

、

有一个名为DFF的Pandas Dataframe，如下所示：SalesOrder SOItem SLNo 4501034 20 1 ZH ('4501034', '20', 1)], names=['SalesOrder', 'SOItem', 'SLNo

浏览 12提问于2022-11-30得票数 -3

1回答

熊猫read_sql_query()中的连接表-多索引问题

、、、、

我想通过连接两个表来使用DataFrame创建一个熊猫pandas.read_sql_query()。'numperso', length=289907)编辑：我知道问题在于'NUMPERSO

浏览 2提问于2019-04-25得票数 0

点击加载更多