Pyspark dataframe将函数应用于行，并将行添加到dataframe的底部

文章/答案/技术大牛

发布

1回答

、

我有一个只有一行的df。id |id2 |score|score2|0 |1 |4 |2 |0/7|1/7 |4/7 |2/7 |temp = [i/7 for i in df.collect()[0]] row = sc.parallelize(Row(temp)).to

浏览 12提问于2020-06-03得票数 1

回答已采纳

1回答

如何将Sklearn SVM实现应用于使用SPARK ML计算的特征( Spark ML中缺少多类SVM )

、、、、

我有220 GB的数据。我已经将其作为两列读取到spark dataframe中: JournalID和Text。现在，我的数据帧中缺少27行。然后，我使用一元和二元语法列上的pyspark的TF和IDF类计算TFIDF，并将其作为另一列添加到dataframe中。现在我为dataframe中的每一行都有了journalID和TFIDF vector。我想将支持向

浏览 1提问于2018-12-17得票数 0

1回答

我是否需要使用普通的python，除了pyspark，或者pyspark拥有我所需要的所有东西？

、、、

我的公司正转向使用Hadoop & learning进行机器学习。我知道python在库中是非常全面的，但是当我们切换到pyspark时，如果我们需要的东西还没有在pyspark中可用呢？而且，继续使用python可能更容易一些，因为我已经知道了python.So：你能把它们混合在一起，用python编写一部分代码，用pyspa

浏览 4提问于2017-08-30得票数 0

1回答

用PySpark计算形状值

、、、、

我正在寻找一种方法来减少在我的大型数据集上计算SHAP值所需的计算时间(大约180米行，6个特性)，我遇到了这个，讨论了如何在SHAP上使用PySpark。我是PySpark新手，我正在努力弄清楚如何使用本文中提供的代码片段来运行我的代码。我现在使用下面的代码运行SHAP，其中还使用了X_values来适应我的隔离森林模型。代码片段演示了如何在PySpark中使用Pandas并行化应用扩展程序。我们定义了一个名为calculate_

浏览 6提问于2022-07-28得票数 2

1回答

如何使用spark dataframe(python/pyspark)跳过csv文件中不需要的标头

、

如何跳过csv中的第一行，并将第二行视为pyspark dataframe中的头部： prod,daily,impress01,manish,USA03,willson,Africa 如何跳过第一行(prod daily impress)，并使用spark dataframe将(id，name，country)视为标题。

浏览 12提问于2019-04-08得票数 0

2回答

替换星火DataFrame中的列值

、、

请您帮助我替换dataframes spark中的列值： ["2", "xxx", "company 1"],company 44", "company 2"], ["5", &q

浏览 1提问于2022-03-01得票数 0

回答已采纳

1回答

PySpark -迭代数据框的行

我需要迭代pyspark.sql.dataframe.DataFrame.DataFrame的行。我以前在pandas中用iterrows()函数做过，但我需要在不使用pandas的情况下为pyspark找到类似的东西。如果我执行for row in myDF:，它将迭代columns.DataFrame 谢谢

浏览 1提问于2018-07-03得票数 1

回答已采纳

1回答

Microsoft Spark聚合方法

、、

我正在使用Microsoft.Spark Spark API并将GroupBy应用于DataFrame对象。我想在分组后将Agg应用于多个列。在pyspark中，我会用下面这样的东西来表达我想要实现的目标 new_df = df.groupBy("customer_id") func.mean("a").alias使用.NET应用程序接口，我已经设置了DataFrame</e

浏览 18提问于2021-10-01得票数 0

回答已采纳

1回答

如何将groupBy和聚合函数应用于PySpark* DataFrame中的特定窗口？*

、、、

我想将groupBy和后续的agg函数应用于PySpark DataFrame，但仅应用于特定窗口。这可以通过一个例子得到最好的说明。假设我有一个名为df的数据集 df.show() | ID| Timestamp| Condition|0| 48| +-----

浏览 19提问于2021-02-10得票数 2

回答已采纳

1回答

PySpark PCA:如何将数据行从多列转换为单列DenseVector？

、、、、

我想使用PySpark (Spark1.6.2)对存在于Hive表中的数值数据执行主成分分析(PCA)。我能够将Hive表导入到：>>> hiveContext = HiveContext(sc)在post的

浏览 1提问于2016-10-06得票数 4

回答已采纳

1回答

用户定义对窗口中所有行的函数

、、

我有一组带有一组字符串特征ids的时间戳位置数据，这些ids被附加到每个位置。我想使用spark中的一个窗口将当前N行和下一个N行ala的所有这些特征id字符串的数组连接起来：from pyspark.sql.window import WindowwindowSpec = Window \ .partitionBy(df[&#x

浏览 2提问于2017-04-13得票数 1

回答已采纳

3回答

Pandas -在函数应用程序上复制行

、

我有一个dataframe，我试图用多个参数将单个函数应用于该dataframe。我希望将函数应用程序的结果存储在一个新的列中，并复制每一行以匹配每一列，但我不知道如何做到这一点。简单的例子：

浏览 16提问于2019-11-27得票数 0

回答已采纳

1回答

如何将Spark dataframe添加到另一个数据帧的底部？

、、

但是在scala中，我如何向DataFrame添加新行呢？我正在尝试将一个数据帧添加到另一个数据帧的底部。因此，无论是如何在scala中添加行，或者如何将DataFrame添加到另一个行的底部，都会有所帮助。谢谢

浏览 0提问于2015-11-06得票数 23

回答已采纳

1回答

向类添加功能的最佳方法- PySpark

、、、、

有一段时间，我在寻找如何将多个列一次重命名为一个PySpark DF，并遇到了如下情况：def rename_sdf(df, mapper={}, **kwargs_mapper，其中通过赋值语句将方法添加到pyspark.DataFrame类中。问题是，我正在创建一个Github来存储我的所有函数和ETL，我认为如果我能够应用上面显示的逻辑，就可以非常容易地创建一个__init__.

浏览 6提问于2020-07-09得票数 1

1回答

使用PySpark并行化自定义函数

、

我熟悉使用UDF将自定义函数逐行应用于DataFrame。但是，我想知道如何将自定义函数并行应用于我的DataFrame的不同子集。下面是一个简化的例子：import pandas as pd dummy_data = pd.DataFrame({'id':np.random.choice(['a','b',

浏览 1提问于2018-07-20得票数 2

1回答

pyspark有没有org.apache.spark.functions.transform的等价物？

、、、

org.apache.spark.functions.transform将一个函数应用于数组的每个元素(在Spark3.0中是新的)，然而，pyspark docs没有提到等效的函数 (有pyspark.sql.DataFrame.transform

浏览 12提问于2020-12-06得票数 0

3回答

PySpark:如何在一个或多个列中将空白转换为空

、、、、

对于DataFrame，我需要转换空字符串(''，' '，.)到一组列中的空值。from pyspark.sql.functions import when, trim, col .withColumn('size', when(trim(col('sizeweight'))) \ .withColumn('color', when(trim(col('color')) == '

浏览 1提问于2022-06-10得票数 1

1回答

Pyspark使用自定义函数将每行存储到自定义对象中，例如节点对象

、、、

有没有办法利用map函数将pyspark dataframe的每一行存储到自定义的python类对象中？pyspark dataframe 例如，在上面的图片中，我有一个spark数据帧，我想将id、features、label的每一行都存储到一个节点对象中(具有3个属性node_id、node_features我想知道这在pyspark中是否可行。我试过像这样的

浏览 19提问于2020-07-14得票数 0

1回答

完整数据帧的火花散列

、

是否可以找到完整PySpark数据的哈希值(最好是散列256)。我不想找到单个行或列的散列。我知道pySpark中存在函数，用于从pyspark.sql.functions导入sha2进行列级哈希计算。读取数据中的数据，通过SoldDate进行分区，计算每个分区的散列，

浏览 8提问于2022-12-04得票数 0

1回答

OneHotEncoding:在一个数据文件中工作，而不是在非常、非常相似的数据very中工作。

、、、、

我将OneHotEncoding函数应用于两个非常相似的数据格式。第一个数据文件如下：当我应用一个热编码时，一切都很好：但是，当我将完全相同的函数应用于这个不同但非常相似的dataframe时：发生下列错误：我不明白为什么会发生这种情况，因为dataframe 1和2都是从以前的dataframe中提取出来的(它们作为一个训练和测试df用于机器学

浏览 1提问于2020-12-29得票数 0

回答已采纳

点击加载更多