迭代Pyspark中的dataframe以执行进一步的计算

、、、

我正在Jupyter Notebook中使用python/pySpark，我试图弄清楚以下几点：我有一个这样的数据帧： id name degrees_id2 B 12 51 2df2

浏览 17提问于2020-11-11得票数 1

回答已采纳

1回答

在pyspark的dataframe中迭代列，而不为单个列生成不同的数据。

、、

我们如何在dataframe中的列中迭代以单独对同一数据same中的部分或所有列执行计算，而不为单个列创建不同的数据same(类似于map在rdd中遍历行，并在行上执行计算而不为每一行创建不同的rddl = list of column names df = dataframe in pyspark</

浏览 3提问于2017-03-10得票数 1

1回答

PySpark -迭代数据框的行

我需要迭代pyspark.sql.dataframe.DataFrame.DataFrame的行。我以前在pandas中用iterrows()函数做过，但我需要在不使用pandas的情况下为pyspark找到类似的东西。如果我执行for row in myDF:，它将迭代columns.DataFrame 谢谢

浏览 1提问于2018-07-03得票数 1

回答已采纳

1回答

如何将Sklearn SVM实现应用于使用SPARK ML计算的特征( Spark ML中缺少多类SVM )

、、、、

我有220 GB的数据。我已经将其作为两列读取到spark dataframe中: JournalID和Text。现在，我的数据帧中缺少27行。使用NGram类，我在dataframe中添加了另外两个列Unigram和Bigram，其中包含文本列中的单字和双字。然后，我使用一元和二元语法列上的pyspark的TF和IDF类计算TFIDF，并将其作为另一列添加到<e

浏览 1提问于2018-12-17得票数 0

1回答

计算每个pyspark分区中的元素数

、

我正在寻找与这个问题等价的火花：。在以下方面的成果：我不想将迭代器的</

浏览 2提问于2016-08-12得票数 6

回答已采纳

1回答

如何迭代大型Pyspark* Dataframe中列的不同值？.distinct().collect()引发大型任务警告*

、

我正在尝试迭代一个大型Pyspark Dataframe列中的所有不同值。当我尝试使用.distinct().collect()执行此操作时，即使只有两个不同的值，它也会发出“任务太大”警告。下面是一些示例代码： spark = SparkSession.builder.appName('Basics').getOrCreate['a',

浏览 1提问于2020-01-14得票数 1

1回答

如何在进行数据转换时减少迭代时间？

我有几个数据转换，它们在迭代时运行得很慢。| b | 1 || b | 3 |我正在迭代的代码如下input_df): input_df

浏览 1提问于2019-12-03得票数 0

回答已采纳

2回答

从PySpark* DataFrame列中删除元素*

我知道PySpark DataFrames是不可变的，所以我想创建一个新列，该列是根据应用到PySpark DataFrame的现有列的转换生成的。我的数据太大了，无法使用collect()。该列是唯一int列表(在给定列表中不重复int)，例如：[1,2][2,3] 上面是一个玩具例子，因为我的实际DataFrame有一个最大长度为52个唯一ints的

浏览 9提问于2017-01-12得票数 1

回答已采纳

1回答

使用spark sql的临时表缓存

、

.+)注册的表？它会使用表的内存缓存版本吗？

浏览 9提问于2016-08-31得票数 22

回答已采纳

3回答

将SCALA === (三等号)转换为用于火花列的Python

、、、

我在Scala中有一段用于Python转换的代码 searchTermsInputTable: DataFrameString): String = { countryCodes.split(",").map(cc => s":G:$cc:").mkString(&qu

浏览 3提问于2022-03-18得票数 0

1回答

PySpark df.persist()损坏数据帧

、、

进一步： my_dataframe = sparkSession.createDataFrame( an_rdd, a_schema )my_dataframe= my_dataframe.persist()my_dataframe.show() # Works.持久化数据帧是必不可少的，因为新

浏览 40提问于2020-10-14得票数 0

1回答

向pyspark* dataframe添加包含文件名的附加列*

、

我使用for循环遍历文件夹中的csv文件，并对每个csv执行一些操作(获取每个唯一id的行数，并将所有这些输出存储到一个pyspark dataframe中)。现在，我的要求是将文件名添加到每次迭代的dataframe中。有没有人能提出一些建议呢？

浏览 43提问于2021-08-01得票数 0

1回答

'DataFrame‘对象不支持项分配

、、、、

我将df作为一个pyspark.sql.dataframe.DataFrame导入到Databricks中。在这个df中，我有3列(我已经证实它们是字符串)，我希望将它们连接起来。我试过先使用一个简单的"+“函数。df["fullname"] = df["firstname"] + df["middlename"] + df["lastname"] 但是我一直收到错误"'

浏览 1提问于2022-12-02得票数 0

1回答

如何在控制台上打印spark数据框名称

、

我是spark的新手。我们有没有内置的函数来打印刚才的数据框名称？

浏览 6提问于2020-02-17得票数 0

回答已采纳

1回答

如何在Scala中将DataFrame转换为DynamicFrame对象

、、

我正在尝试将一些pySpark代码转换为Scala，以提高性能。在AWS (它使用Apache )中，会自动为您生成一个脚本，它通常使用DynamicFrame对象加载、转换和写入数据。但是，DynamicFrame类并不具有与DataFrame类相同的所有功能，有时您必须将其转换回DataFrame对象，反之亦然，以执行某些操作。下面是我如何在DataFrame中将DynamicFrame对象转换为pySpark对

浏览 1提问于2018-05-17得票数 3

回答已采纳

2回答

使用pySpark迭代每一行数据帧

、、、、

我需要使用dataframe来迭代pySpark，就像我们可以使用for循环迭代一组值一样。下面是我写的代码。这段代码的问题是 from pyspark.sql.functions import * from

浏览 2提问于2017-01-30得票数 3

1回答

使用pyspark连接到单元表

、、

我使用以下声明：HiveContext(sc).sql('from `dbname.tableName` select需要了解从蜂巢表中获取一些数据并将其存储到dataframe中以进一步编写程序的正确方法。

浏览 3提问于2016-03-18得票数 0

回答已采纳

2回答

将数据保存到HDFS的格式是什么？

、、、

创建DataFrame后，我可以将其保存为avro、csv或拼板格式。在dataframe或rdd中是否有其他格式可用于在Hadoop中保存数据？

浏览 2提问于2017-12-21得票数 1

1回答

迭代两个数据，比较和更改熊猫或火星雨中的值。

、、

如果比较成功，我需要比较两个dataframe之间的几个列，并更改第一个dataframe中一个列的值。Dataframe 1：Pants Germany Red 0我希望检查文章、国家/产地和颜色列是否匹配(所以请检查是否可以在dataframe 2中找到dataframe 1中<e

浏览 3提问于2019-09-23得票数 0

回答已采纳

1回答

Python/PySpark并行处理示例

、、、、

我在理解如何在我的python脚本中利用并行处理的能力时遇到了麻烦。(面包、糖果等)我的脚本：2.Filter pyspark dataframe for the subset (e.g. category == 'bread')我需要在迭代循环中添加什么才能触发多处理？

浏览 10提问于2018-03-04得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在pyspark的dataframe中迭代列，而不为单个列生成不同的数据。

PySpark -迭代数据框的行

如何将Sklearn SVM实现应用于使用SPARK ML计算的特征( Spark ML中缺少多类SVM )

计算每个pyspark分区中的元素数

如何迭代大型Pyspark* Dataframe中列的不同值？.distinct().collect()引发大型任务警告*

如何在进行数据转换时减少迭代时间？

从PySpark* DataFrame列中删除元素*

使用spark sql的临时表缓存

将SCALA === (三等号)转换为用于火花列的Python

PySpark df.persist()损坏数据帧

向pyspark* dataframe添加包含文件名的附加列*

'DataFrame‘对象不支持项分配

如何在控制台上打印spark数据框名称

如何在Scala中将DataFrame转换为DynamicFrame对象

使用pySpark迭代每一行数据帧

使用pyspark连接到单元表

将数据保存到HDFS的格式是什么？

迭代两个数据，比较和更改熊猫或火星雨中的值。

Python/PySpark并行处理示例

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐