在pyspark中对dataframe进行循环

文章/答案/技术大牛

发布

1回答

、、、

我需要这段简单的代码(Pyspark)的帮助： def ann(table):for tabletest, db71_test, pek6_test, db00f_test, d23b_test, bw0110_test]: ann(table) 因此，我只尝试将列"stand“添加到列表中的所有(已经存在)数据帧中。奇怪的是，如果我在函数"ann

浏览 154提问于2021-01-30得票数 0

回答已采纳

1回答

基于2个spark数据帧中的匹配zip，创建用于距离计算的纬度和经度对

、、、

我有一个pyspark dataframe A，它有3列：-69 40 trp我有另一个pyspark dataframe B，它具有相同的列，但捕获的值将不同：-68 43 trp我希望根据dataframe B中匹配的邮政编码为A的每个记录创建纬度经度对。因此，输出RDD对将如下所示： ([-69

浏览 2提问于2017-11-16得票数 0

1回答

如何在循环中创建一个pyspark DataFrame？

、

如何在循环中创建一个pyspark DataFrame？在这个循环中，在每次迭代中，我输出2个值print(a1,a2)。现在，我想将所有这些值存储在一个pyspark数据帧中。

浏览 26提问于2021-01-12得票数 0

1回答

如何在for循环中附加pyspark数据帧？

、、、

示例:我有一个pyspark dataframe： x_data y_data 3.5 8.5 5.5 20.5 41 23 58 30 y_data 如何将每列计算的结果附加到for<e

浏览 13提问于2021-02-18得票数 0

回答已采纳

1回答

为什么我得到了TypeError:不能在使用_thread.RLock时选择'_thread.RLock‘对象

、、、、

() "/private/var/www/http/hawk-scripts/hawk_etl/scripts/spark_rds_to_parquet.py"，第36行中，在process = spark.sparkContext.parallelize(dataframe_mysql，中1)文件"/Library/Frameworks/Python.framework/V

浏览 2提问于2022-05-11得票数 0

回答已采纳

1回答

PySpark: AttributeError：“DataFrame”对象没有属性“forEach”

、、

我试图从hdfs中获取数据，并对每个数据进行迭代，以便对列_c1进行分析。import findsparkimport pysparksc= SparkContext()sql = SQLContext(s

浏览 3提问于2022-04-07得票数 0

回答已采纳

1回答

可以在给定日期范围的PySpark数据帧上迭代日期吗？

、、、

到目前为止，我已经手动输入了日期范围：from pyspark.sql.functions import col,litimport datetime +----------+--------------

浏览 6提问于2022-12-01得票数 0

2回答

有没有办法在pyspark中根据索引对数据帧进行切片？

、、

在python或R中，可以使用索引对DataFrame进行切片。df.iloc[5:10,:] 在pyspark中有没有类似的方式来根据行的位置对数据进行切片？

浏览 3提问于2018-10-13得票数 4

回答已采纳

2回答

Pyspark dataframe到pandas的转换会丢弃数据吗？

、

我有一个相当复杂的过程来创建pyspark dataframe，将其转换为pandas dataframe，并将结果输出到平面文件。我不确定错误是在哪一点引入的，所以我将描述整个过程。开始时，我有一个pyspark dataframe，其中包含ids集的成对相似性。我喜欢按ID_A对其进行分组，按EuclideanDistance对每组进行排序，并且只获取每组的前N对。结果”数据帧中。尽管它仍然<e

浏览 1提问于2018-05-02得票数 0

2回答

使用pySpark迭代每一行数据帧

、、、、

我需要使用dataframe来迭代pySpark，就像我们可以使用for循环迭代一组值一样。下面是我写的代码。这段代码的问题是 from pyspark.sql.functions import * from pyspark.s

浏览 2提问于2017-01-30得票数 3

1回答

如何将一列从另一数据中添加到另一个数据中？

、、、、

我刚在pyspark工作，我试图对我的数据进行一些标记化。我有我的第一个数据：reviewID|text|starstokenizer = Tokenizer(inputCol="text", outputCol.withColumn("howmanywords", countTokens(col("words"))).show(truncate=False) 我得

浏览 5提问于2019-09-21得票数 0

回答已采纳

1回答

如何显示pyspark数据帧的历史记录？

、

我使用我的代码对pyspark dataframe进行分组和聚集，它看起来像这样： >>> df.groupBy('DAY_OF_WEEK','confirmed').agg(F.count('confirmed| 3| 1|40128|+-----------+---------+-----+ 有没有办法画出这个pyspark我只能通过将其转换

浏览 20提问于2021-09-24得票数 0

1回答

PySpark DataFrame:标记某些列值发生更改的行

、、、

我有一个包含'people‘和'timestamp’列的PySpark DataFrame (加上其他与问题无关的列)。解释是用户在那个时候做了一些事情。我想对“人物”的所有行进行分组，其中“时间戳”的差异不超过“阈值”值(例如5分钟)。感谢你的想法！

浏览 35提问于2018-08-30得票数 0

回答已采纳

1回答

向pyspark dataframe添加包含文件名的附加列

、

我使用for循环遍历文件夹中的csv文件，并对每个csv执行一些操作(获取每个唯一id的行数，并将所有这些输出存储到一个pyspark dataframe中)。现在，我的要求是将文件名添加到每次迭代的dataframe中。有没有人能提出一些建议呢？

浏览 43提问于2021-08-01得票数 0

1回答

用笔记本将数据从Azure Synapse数据库加载到DataFrame中

、

我试图从Azure Synapse DW中加载数据到一个数据文件中，如图像所示。most recent call last): 对我做错了什么有什么想法吗

浏览 2提问于2021-08-17得票数 1

回答已采纳

1回答

如何使用AWS胶对S3 CSV文件进行排序

、、、、

我对AWS胶水和火花比较陌生。我想按S3中的用户ID对csv文件进行排序。我正在试用下面的脚本，但是它没有对file.Can进行排序--请有人帮我做这个？sysfrom awsglue.transforms import *from pyspark.contextimport current_date import pyspark.sq

浏览 3提问于2022-01-16得票数 0

1回答

向类添加功能的最佳方法- PySpark

、、、、

有一段时间，我在寻找如何将多个列一次重命名为一个PySpark DF，并遇到了如下情况：def rename_sdf(df, mapper={}, **kwargs_mapper): # return something 我对最后一段感兴趣，其中通过赋值语句将方法添加到pyspar

浏览 6提问于2020-07-09得票数 1

1回答

使用多个窗口过滤PySpark数据的行

、、、、

我正在寻找一个有效的方法，过滤掉所有的行，而不是在一个时间窗口。-09-01 20:12:00| 2| +-------------------+------+ 一些补充资料： Py

浏览 1提问于2018-09-02得票数 0

回答已采纳

1回答

For/Loop/While in Databricks (Azure) SQL

、、、、

谁知道我是否可以在Databricks的SQL中进行迭代构造(如loop，while，for)？

浏览 35提问于2021-11-11得票数 0

1回答

如何在Pyspark* Dataframe中训练和测试拆分的时间序列数据*

、、、

我想对排序后的Pyspark数据帧进行基于时间的训练测试拆分。假设前300行将在训练集中，下200行将在测试拆分中。我可以用以下命令选择前300行： train = df.show(300) 但是如何从Pyspark dataframe中选择最后200行呢？

浏览 14提问于2019-03-13得票数 1

点击加载更多