PySpark数据帧的最佳实践-删除多个列？

文章/答案/技术大牛

发布

2回答

、、、

假设有人想要从数据帧中删除一列。可以在不创建新数据帧的情况下做到这一点吗？看起来创建一个新的数据帧更安全，更正确，对吗？通过重用如上所述的数据帧可能会遇到什么问题？如果重用数据帧是一种糟糕的做法，假设有人想要删除几个与模式匹配

浏览 21提问于2019-11-22得票数 0

5回答

火花复制数据栏- Python/PySpark中的最佳实践？

、、

这是用于使用Spark2.3.2的Python/PySpark。我正在寻找最佳实践方法，将一个数据框架的列复制到另一个数据框架，使用PySpark对一个非常大的10+十亿行数据集(按年/月/日平均划分)。每一行都有120列要转换/复制。输出数据帧将被写入另一组文件中，日期分区。在Python 2.3+中这样

浏览 1提问于2018-12-19得票数 5

1回答

spark是否提供了一种生成64位随机盐的方法？

、

我正在使用Pyspark，并希望生成随机加密盐作为我的数据帧中的一个附加列。我想用它来为我的数据生成Hash或一种保留加密密码值的格式。Spark dataframe API中是否有生成加密盐的最佳实践？

浏览 2提问于2018-05-30得票数 0

1回答

将多个PySpark DataFrames与MergeSchema合并

、、

我想将多个PySpark数据帧合并到一个PySpark数据帧中。它们都来自相同的模式，但是它们可能会有所不同，因为有时会缺少一些列(例如，模式通常包含200个具有已定义数据类型的列，其中dataFrame A有120列，dataFrame B有60列)。是否有可能在不写入和读取所有数据帧的情况

浏览 2提问于2020-06-22得票数 0

2回答

写到csv的火花性能差

、、、

上下文我试过什么发生了什么最后，这里是我的设置：

浏览 1提问于2020-07-01得票数 1

1回答

包含以文本和整数形式存储的列的Excel工作表- pandas问题

、、、

我的输入数据来自三个excel工作表，一些列(整型数据)数据被存储为文本。将excel工作表作为数据帧读取时，最佳做法是什么。当我尝试对所有三个数据帧执行pd.concat操作时遇到问题。在pd.concat过程中，我得到了比预期更多的行数。我尝试了使用astype()将其转换为int，并使用df.columns = df.columns.str.strip()删除了空格让我知道

浏览 17提问于2019-10-31得票数 0

3回答

取消持久化(py)spark中的所有数据帧

、、、、

这通常是在一个大的步骤之后，或者缓存一个我想要多次使用的状态之后。似乎当我第二次对我的数据帧调用cache时，一个新的副本被缓存到内存中。在我的应用程序中，这会导致在扩展时出现内存问题。尽管在我当前的测试中，给定的数据帧最大大约为100MB，但中间结果的累积大小超出了executor上分配的内存。请参见下面的小示例，该示例演示了此行为。['C2'

浏览 9提问于2016-04-28得票数 39

回答已采纳

2回答

如何从以2K开头的pyspark数据帧中删除记录

、、

我使用的是pyspark 3.0.1。我想从我的pyspark数据帧df的列group中删除记录以2K开头的行。我的样本数据如下所示John 23 1L12Pat 35 1P28Name A

浏览 1提问于2021-03-04得票数 0

1回答

删除PySpark数据帧中具有无效多边形值的行？

、、、、

我们在数据帧上使用PySpark函数，这会引发错误。错误很可能是由于数据帧中的错误行造成的。数据帧的架构如下：|-- geo_name: string (nullable = true)|--错误发生时只需调用：错误： java.lang.IllegalArgumentException: Li

浏览 14提问于2022-10-18得票数 1

回答已采纳

1回答

如何使用Pyspark/SQL/DataFrames SPARK RDD来插入/删除DB2源表数据？

、、、

我尝试运行upsert/delete命令来插入/删除DB2数据库源表中的一些值，这是DB2上的一个现有表。是否可以使用Pyspark/Spark SQL/Dataframes。

浏览 2提问于2019-05-10得票数 0

1回答

检查列是否全部为空

、、

我有一个列名和一个数据帧。我想检查该列中的所有值是否都为空，如果为空，则从数据帧中删除该列。我所做的是检查具有非空值的列的计数，如果count等于0，则删除该列，但在pyspark中这似乎是一个开销很大的操作

浏览 0提问于2019-08-09得票数 0

1回答

spark.executor.cores Vs spark.executor.instance我应该增加哪一个？

这里的权衡是什么?应该如何选择这两个配置的实际值？

浏览 1提问于2020-06-01得票数 0

2回答

pyspark:删除所有行中具有相同值的列

相关问题：然而，上述问题的答案仅适用于熊猫。有没有针对pyspark数据帧的解决方案？

浏览 1提问于2018-12-17得票数 4

1回答

如何将Sklearn SVM实现应用于使用SPARK ML计算的特征( Spark ML中缺少多类SVM )

、、、、

我有220 GB的数据。我已经将其作为两列读取到spark dataframe中: JournalID和Text。现在，我的数据帧中缺少27行。使用NGram类，我在dataframe中添加了另外两个列Unigram和Bigram，其中包含文本列中的单字和双字。然后，我使用一元和二元语法列上的pyspark的TF和IDF类计算TFIDF，并将其作为另一列添加到da

浏览 1提问于2018-12-17得票数 0

1回答

如何在pyspark中构建直方图

、

我有一个大的pyspark数据帧，并希望其中一列的直方图。df.select.("col").rdd.flatMap(lambda x: x).histogram(100) 但这非常慢，似乎将数据帧转换为rdd，我甚至不确定我为什么需要flatMap。实现这一目标的最佳/最快方法是什么？

浏览 0提问于2017-09-13得票数 1

1回答

将列有条件地添加到数据帧中

、、、、

我在PySpark中有一个数据帧。我想有条件地在数据框架中添加一列。如果数据帧没有列，那么添加一个带有null值的列。如果列存在，则不执行任何操作，并返回与新数据帧相同的数据帧。如何在PySpark中传递条件语句

浏览 6提问于2017-01-20得票数 0

回答已采纳

2回答

PySpark列向绑定

在PySpark中有什么特定的方法可以像我们在r中那样绑定两个数据帧吗？我需要在PySpark中同时绑定数据帧和作为一个数据帧。

浏览 1提问于2017-08-30得票数 3

2回答

使用pyspark或cql查询从cassandra表中删除行

、、、

我有一张有很多列的桌子，是给我的。test_event还有另一个表测试，在包含id的行的同一个键空间中，我必须从test_event中删除。我找到了一些使用DELETE的解决方案，但它是用scala编写的。经过近百次的尝试，我终于感到困惑，请求你的帮助。有人能一步一步地和我一起做吗？

浏览 3提问于2020-06-15得票数 1

1回答

Table to pandas正在杀死我在azure Synapse中的会话

、

我正在以表的形式将数据库中的表调用到synapse中。然后我的下一步是转换为pandas，这样我就可以运行所有与pandas.However相关的代码。当我将表转换为pandas时，会话将被终止。我已经通过转换为拼花文件，但我不能转换为拼花从一个表，然后读取熊猫数据帧。这方面有没有什么最佳实践： %pyspark rawdata = spark.sql("""select Invoice

浏览 13提问于2021-04-20得票数 0

回答已采纳

1回答