从spark dataframe中删除具有相同值的重复列

文章/答案/技术大牛

发布

2回答

、

|222 ||5 |2321 | +---+------+ 我正在以下面的方式使用drop table_df.drop("ID").show(false) 这将删除这两个如何在此处删除重复的第二列"ID“？

浏览 83提问于2020-07-16得票数 1

1回答

PySpark数据重分区

、

例如这是否将具有类似'id'的数据移动到相同的分区？spark.sql.shuffle.partitions值如何影响重分区？

浏览 0提问于2018-02-22得票数 11

回答已采纳

1回答

使用pyspark中的列索引删除同名的列

、、、

这是我的数据帧，我正在尝试使用index删除同名的重复列： df = spark.createDataFrame([(1,2,3,4,5)],['c','b','a','a','b'])| c| b| a| a| b|| 1| 2| 3| 4| 5| +---+---+---+---+---+ 我拿到了数据帧

浏览 30提问于2019-12-19得票数 4

2回答

需要删除Pandas中的相同列名

、、

我有一个具有相同列名的dataframe，我想删除一个特定的重复列。

浏览 5提问于2022-08-24得票数 -1

回答已采纳

2回答

检查相同的列名在Pandas中是否具有相同的值

、

所以我有一个DataFrame，它有多个相同的列名。我首先分隔这些列，并创建一个具有这些重复列名的DataFrame。我想知道的是，有没有办法仔细检查行中的所有值是否彼此具有相同的值？在这种情况下，我知道一列是另一列的完全重复，我可以删除它吗？(checking_empty_list).ite

浏览 35提问于2021-11-22得票数 0

回答已采纳

3回答

如何从数据框中移除具有相同值的重复列

、

4 8 4 k 1 k 2 1 2 t 1 t 我想删除具有相同值的重复列，即列3与列1重复，因此我想删除列3或列1，列6与列4重复，因此我想删除列6或列4。我有800列的大数据，列名为a1、a2、a3....a800。所以我的结果将是这样的<

浏览 1提问于2014-02-16得票数 2

1回答

如何删除pandas中所有行中具有重复值的列

、、、

我想从我的数据框列中删除所有行中具有重复值的列。我有这样的数据帧： test = [('a', 1, 'a', 34, 'b', 34,'a'), ('a', 1, 'a', 30, 'v', 30,'a'),a', 40, 'a&#x

浏览 9提问于2019-06-26得票数 0

3回答

如何删除PySpark DataFrame中的列复制而不声明列名

、、

这是我在熊猫身上做的事如何在PySpark中做到这一点？我找到了，但是代码的数量太不一样了

浏览 3提问于2021-09-30得票数 2

回答已采纳

1回答

熊猫:寻找重复的栏

、

我有一个包含不同dtypes的数据文件，如int、float、object、datatime等。我正在执行data cleaning，以列出或查找数据文件中的重复列名。重复标准如下：具有相同数据值的列我试着使用transpose方法df.T.duplicated()来列出重复的列名，但对于大数据格式来说似乎比较慢。我知道我们可以使用pivot、pivot_table或corr列出重

浏览 0提问于2023-05-21得票数 0

回答已采纳

3回答

需要将重复的列从pyspark中的数据中移除。

、、、

我有一个432列的dataframe和24个重复的列。 : org.apache.spark.sql.catalyst.errors.package$TreeNodeException: execute, tree: HashAggregate(keys

浏览 0提问于2019-05-31得票数 0

回答已采纳

1回答

如何在pyspark中将重复列名的数据帧写入csv文件

、、、

如何在join操作后将具有相同列名的数据帧写入csv文件。目前，我正在使用以下代码。dfFinal.coalesce(1).write.format('com.databricks.spark.csv').save('/home/user/output/',header = 'true')将在“/home/user/output”中写入数据帧"dfFinal“.But

浏览 0提问于2018-10-03得票数 6

1回答

使用来自另一个dataframe的新数据更新python数据

、

我试图用从不同的数据框架(df2)接收的数据更新现有的数据帧(Df2)。数据帧df2可能有新列、新行或新数据。下面是我想要完成的事情的一个例子。12 15 7f 2 4 6 df2 (请注意，这几乎与df1类似，只是它没有列var1，有一个新的列var4，有更新的var3值，var2是相同的，并有一个新行“Mones3”)。15

浏览 0提问于2018-09-14得票数 0

回答已采纳

3回答

在将运行时7.3LTS(Spark3.0.1)升级到9.1LTS(Spark3.1.2)后创建PySpark数据库时json文件中的重复列抛出错误

、、、、

问题陈述:在升级Databricks运行时版本时，复制列在创建dataframe时抛出错误。在较低的运行时，会创建dataframe，并且由于下游不需要重复列，因此它只是在select中被排除在外。以前，我们在Databricks运行时7.3LTS(Spark3.0.1)上运行，在那里它创建了包含重复列的dataframe，但是由于我们没有进一步使用它，它没有受到伤害。但是，我们现在正在升级到运行时9.1LTS(Spark3.1.2)

浏览 1提问于2021-11-16得票数 2

回答已采纳

1回答

仅通过其值删除重复列

、

我刚刚得到了一个赋值，我在csv文件中获得了许多特性(作为列)和记录(作为行)。使用Python (包括熊猫)清理数据：1,1,11,0,1 谢谢。

浏览 0提问于2016-02-13得票数 0

1回答

[ spark* -cassandra-connector]如何在spark 2.3.1中将scala隐式支持的代码转换为java*

、、、

我正在尝试将spark-cassandra使用的项目从scala_2.11重构为java_1.8。我使用的是spark-sql_2.11-2..3.1和spark-cassandra-connector_2.11-2.3.1。现在我正在尝试将代码重构到java 1.8中。我有一些隐含和DataFrame被使用。import com.datastax.spark.connector._ import spark

浏览 7提问于2019-04-17得票数 0

回答已采纳

2回答

熊猫在创建中与合并栏连接()

、、

我正在尝试创建一个非常大的dataframe，它由许多较小的dataframe (重命名为dataframe名称)组成的一列组成。我使用CONCAT()和循环遍历表示dataframes的字典值，并在索引值上循环创建大型dataframe。CONCAT() join_axes是所有数据格式的公共索引。这很好，但是我有重复的列名。我必须能够在指定的窗口上循环索引，

浏览 9提问于2016-11-03得票数 0

回答已采纳

1回答

Spark db连接器正在删除大多数行为空的列。

、、、

我试图使用以下代码从cosmos db中读取30K行数据，使用spark连接器 "Endpoint" -> "", "query_custom" -> """SELECT t.id,t.gender,t.loc from Tab t""

浏览 0提问于2021-05-22得票数 3

回答已采纳

2回答

为什么列表应该先转换为RDD，然后再转换为Dataframe？有没有办法把list转换成dataframe？

、、、

我是spark的新手，我有一些简单的问题。我想使用prefixspan的方法，但它只支持数据集和数据帧。因此，我将list转换为rdd，然后将其转换为dataframe。为什么列表不能直接转换为dataframe？Row([[1, 2], [3]]), Row([[1], [3, 2], [2]]), Row([[1, 2], [5]]), Row([[6]])]rdd = spark.sparkContext.

浏览 71提问于2021-09-28得票数 0

1回答

如何通过在spark中使用IN子句传递另一个列值来检索列值

、、

我有一个场景，通过where条件从同一个DataFrame中使用另一个列从DataFrame读取一列，这个值作为IN条件通过，从另一个DataFrame中选择相同的值，我如何在spark DataFrame中实现。在SQL中，它将类似于： select distinct(A.date) from table A where A.key in (s

浏览 19提问于2021-05-28得票数 0

回答已采纳

1回答

移除“来自星火DataFrame列名

、、、

如何删除“。”从星火DataFrame的列名？下面的代码是可复制的。# import Spark libraries, configuration, Contexts, and types.from pyspark.sql importSparkSession im

浏览 12提问于2017-11-15得票数 3

回答已采纳

点击加载更多