PySpark:迭代数据帧列表_Pyspark数据帧到python列表_Pyspark:迭代数据帧中的组 - 腾讯云开发者社区

、、、、

我有一个数据帧列表，在列表的每个位置上，我有一个数据帧，我需要将所有这些数据帧合并到一个数据帧中。在我使用之前，这是在PySpark中完成的 dataframe_new =pd.concat(listName) 解决方案1 from pyspark.sql.types import * import pyspark.sql from pyspark.sql import SparkSession, Row customSchema = StructType([ StructField("col1", StringType(), True), Str

浏览 12提问于2021-01-28得票数 0

2回答

从PySpark连接到Sharepoint的代码

、、、、

我想使用PySpark提取SharePoint列表数据。我不确定Sharepoint列表数据和存储。我想以PySpark数据帧的形式读取SharePoint列表数据。我尝试过Python Libraies: Sharepy Slum和许多其他库

浏览 2提问于2019-05-24得票数 2

1回答

用map并行化for循环，用pyspark并行化reduce

、、

在我的应用程序中，我从S3上不同位置的数据创建不同的数据帧，然后尝试将这些数据帧合并为单个数据帧。现在，我正在使用一个for循环。但我有一种感觉，使用pyspark中的map和reduce函数可以更有效地完成这项工作。下面是我的代码： from pyspark import SparkConf, SparkContext from pyspark.sql import SQLContext, GroupedData import pandas as pd from datetime import datetime sparkConf = SparkConf().setAppName(

浏览 0提问于2016-08-24得票数 3

1回答

Spark SQL更新/删除

、、、、

目前，我正在做一个使用pySpark的项目，它读取一些Hive表，将它们存储为数据帧，并且我必须对它们执行一些更新/过滤。我正在不惜一切代价避免使用Spark语法来创建一个框架，该框架只接受参数文件中的SQL，该参数文件将使用我的pySpark框架运行。现在的问题是，我必须在我的最终数据帧上执行更新/删除查询，是否有任何可能的工作来在我的数据帧上执行这些操作？非常感谢!

浏览 7提问于2019-11-15得票数 1

1回答

动态汇总和重命名PySpark中的聚合列

、、、、

我有一个PySpark数据帧(Df)，其中包含50+列，其中包含一些动态列，这些列可能存在也可能不存在，但它们存在于一个单独的列表(Reqd_col)中。我想对列表(Reqd_col)中存在的PySpark data frame(df)中的那些列进行汇总(按固定列‘region’分组)和汇总总和或计数，汇总列的名称应与列的原始名称相同，而不是PySpark生成的默认名称。以下是一个例子： df- PySpark数据帧，由50+列组成 Reqd_Col = 'Amount'，'Balance'，'Customer‘-->这是一个不断变化的动态列表

浏览 24提问于2021-09-08得票数 0

1回答

如何从pyspark中删除数据帧来管理内存？

、、、

我列出我的数据帧以丢弃未使用的数据帧。首先，我使用下面的函数列出了我在其中一篇文章中找到的数据帧 from pyspark.sql import DataFrame def list_dataframes(): return [k for (k, v) in globals().items() if isinstance(v, DataFrame)] 然后我试着从列表中删除未使用的。我在下面使用的代码 df2.unpersist() 当我再次列出时，df2仍然在那里。如何在pyspark上删除数据帧以获得一些内存？或者你还有其他的建议吗？谢谢。

浏览 0提问于2018-10-31得票数 4

回答已采纳

1回答

如何阻止pyspark dataframe变为list？

、

我从一个pyspark dataframe开始，在对它使用.take()之后转换成一个列表。我怎么才能保持它是pyspark数据帧呢？ df1 = Ce_clean print(type(df1)) df1 = df1.take(1000) print(type(df1)) <class 'pyspark.sql.dataframe.DataFrame'> <class 'list'>

浏览 1提问于2020-09-17得票数 1

1回答

在pyspark中参数化连接条件

、、

我有一个列名列表，每次列名都不同。列名存储在列表中。因此，我需要传递列表中的列名(在下面的示例中，列名是其id和programid id)，以便在源数据帧和目标数据帧之间进行比较。在下面的示例中，我想检查src_id == id和src_programid == programid是否。 from pyspark import SparkContext, SparkConf, SQLContext from pyspark.sql.functions import col, when srccolumns = ['src_id','src_programid'

浏览 14提问于2019-04-13得票数 0

3回答

大数据帧pyspark的show()子集

、、、、

我有一个很大的pyspark数据帧，我正在对它执行一些转换，并与其他数据帧连接。我想调查转换和连接是否成功，以及数据帧是否看起来像是预期的，但我如何显示数据帧的一小部分。我试过很多东西。 df.show(5) 和 df.limit(5).show() 但是，我尝试的所有操作都需要大量的作业，从而导致性能低下。我可以旋转一个非常大的集群，但是有没有一种方法可以快速地只获取数据帧的一小部分？

浏览 0提问于2019-11-20得票数 2

1回答

在一个列表中存储多个pysparks数据帧？

、、

如何在一个列表中存储多个数据帧？我有一个函数可以读取文件夹中的多个拼图文件。但是，我需要创建一个列表，其中包含正在读取以执行其他进程的数据帧。预期的结果如下所示： dfs = df1、df2、df3、df4、dfn 注意:我正在使用pyspark数据帧谢谢!

浏览 8提问于2021-07-15得票数 0

4回答

Pyspark数据帧到python列表

、

我有下面的pyspark数据帧。 Job_name start_time status A 09:00:00 Not started B 09:30:00 Completed C 09:30:00 Running 我正在尝试创建一个列表-从上面的数据框中创建一个列表，如下所示。预期输出： lst = ["job A Not started at 09:00:00", "job B Completed at 9:30", "job C Running at 9.30"] 有没有办法将pysp

浏览 34提问于2021-09-21得票数 1

回答已采纳

2回答

将spark dataframe转换为不带pandas dataframe的元组列表

、、

我有一个现有的逻辑，可以将pandas数据帧转换为元组列表。 list(zip(*[df[c].values.tolist() for c in df])) 其中df是一个熊猫数据帧。有没有人能帮我在pyspark中实现同样的逻辑呢？

浏览 17提问于2019-10-15得票数 1

2回答

如何使用PySpark将这些多个csv文件(大约130,000个)有效地合并为一个大型数据集？

、、、、

我之前发布了这个问题，并得到了一些使用PySpark的建议。下面的压缩文件()包含一个名为data的文件夹，其中包含大约130,000个csv文件。我想把它们合并到一个单独的数据帧中。我有16 of的RAM，当我访问前几百个文件时，我一直在耗尽RAM。这些文件的总大小只有300-400MB的数据。如果您打开任何csv文件，您可以看到它们都具有相同的格式，第一列用于日期，第二列用于数据系列。所以现在我改用PySpark，但是我不知道连接所有文件的最有效的方法是什么，对于pandas数据帧，我会像这样连接单个帧的列表，因为我想让它们在日期上合并： bigframe = pd.concat(

浏览 14提问于2020-02-17得票数 2

回答已采纳

1回答

将numpy中的不同数组添加到数据帧的每一行

、、、

我有一个SparkSQL数据帧和2Dnumpy矩阵。它们具有相同的行数。我打算将numpy矩阵中的每个不同数组作为新列添加到现有的PySpark数据帧中。这样，添加到每一行的列表是不同的。例如，PySpark数据帧如下所示 | Id | Name | | ------ | ------ | | 1 | Bob | | 2 | Alice | | 3 | Mike | numpy矩阵是这样的 [[2, 3, 5] [5, 2, 6] [1, 4, 7]] 产生的预期数据帧应该如下所示 | Id | Name | custo

浏览 16提问于2019-10-05得票数 0

1回答

如何在pyspark中解压list类型的列

、、、

浏览 29提问于2020-01-24得票数 0

回答已采纳

2回答

将PySpark数据帧转换为PySpark.pandas数据帧

、、

在链接中，用户可以在Spark3.2中的PySpark之上与熊猫合作。是否需要很长时间才能将PySpark数据帧转换为PySpark熊猫数据框架？我知道将PySpark数据帧转换为熊猫数据框架需要很长时间。

浏览 9提问于2022-03-02得票数 1

回答已采纳

2回答

以每列为关键字将PySpark数据帧转换为JSON

、、、

我正在研究PySpark。我有一个数据框，我需要将其转储为JSON文件，但JSON文件应具有以下格式，例如- {"Column 1": [9202, 9202, 9202, ....], "Column 2": ["FEMALE", "No matching concept", "MALE", ....]} 因此，每列应该有一个键，相应的值应该包含该列中的所有值的列表我尝试将其转换为Pandas数据帧，然后在将其作为JSON转储之前转换为字典，并成功地完成了转换，但由于数据量非常大，我想直接在PySpark数据

浏览 14提问于2019-12-18得票数 1

回答已采纳

1回答

从PySpark中的复杂列中提取值

、、

我有一个PySpark数据帧，它有一个复杂的列，请参考下列值： ID value 1 [{"label":"animal","value":"cat"},{"label":null,"value":"George"}] 我想在PySpark dataframe中添加一个新列，它基本上将它转换为一个字符串列表。如果Label为null，则字符串应包含value；如果label不为null，则string应为label:value。因此，对于上面的示例数据帧，输出应如下所示： ID

浏览 0提问于2021-02-09得票数 0

1回答

如何在不将列列表临时存储到变量中的情况下重命名df列？

、、、

我正在提取Snowflake表并将其加载到PySpark DataFrame中，并且我想重命名它的列。现在，正在将加载的数据帧存储到一个变量中，然后访问列列表： calculated_signal_df = ( spark.read.format("snowflake") .options(**sfOptions) .option("query", "select * from iot.calculated_signal") .load() ) calculated_signal_df = calculated_s

浏览 1提问于2021-04-21得票数 0

1回答

PySpark - DataFrame上的多个联合变慢

、、

我在PySpark (版本2.4.3)中遇到了一个关于DataFrame联合的问题。当在多个数据帧上进行联合时，每个后续联合都会变得更慢。类似的问题已经在Spark版本1.4中注册并标记为已解决：。以下是示例代码： from pyspark.sql import SparkSession from pyspark.context import SparkContext from pyspark.sql import functions as F from pyspark.sql.types import * from time import perf_counter sc = Spark

浏览 26提问于2019-11-23得票数 1

1回答

pyspark将列名从列表传递到dataframe函数，如何插值？

、、、、

我已经编辑了这个问题来提供一个例子- 我有一个列名的列表： colnames = ['col1','col2','col3'] 我需要一个接一个地将它们传递给Dataframe函数，以返回每个函数的值。我不会使用groupBy函数，因此这不是另一个问题的重复。我只需要Dataframe中每列所有值的最大值、最小值、和。代码示例： from pyspark import SparkContext from pyspark.sql import SQLContext sc = SparkContext("local[2]", &#

浏览 0提问于2018-05-24得票数 1

2回答

PySpark列向绑定

在PySpark中有什么特定的方法可以像我们在r中那样绑定两个数据帧吗？示例：数据帧1有10列。数据帧2有1列我需要在PySpark中同时绑定数据帧和作为一个数据帧。

浏览 1提问于2017-08-30得票数 3

1回答

如何从列表列创建组合的Pyspark数据框架

、、、、

我目前有一个pyspark数据帧，如下所示： +--------------------+ | items| +--------------------+ | [1, 2, 3, 4]| | [1, 5, 7]| | [9, 10]| | ...| 我的目标是转换这个数据帧(或创建一个新的数据帧)，以便新数据是表中项的两个长度组合。我知道itertools.combinations可以创建列表的组合，但我正在寻找一种有效地对大量数据执行此操作的方法，但我不知道如何将其与Py

浏览 12提问于2021-02-09得票数 1

回答已采纳

1回答

在pyspark中对dataframe进行循环

、、、

我需要这段简单的代码(Pyspark)的帮助： def ann(table): table=table.withColumn('stand', lit('29Jan2020')) for table in [akt_test, b60_test, db71_test, pek6_test, db00f_test, d23b_test, bw0110_test]: ann(table) 因此，我只尝试将列"stand“添加到列表中的所有(已经存在)数据帧中。不幸的是，没有添加该列。奇怪的是，如果我在函数"ann“的末尾添加一个命令

浏览 154提问于2021-01-30得票数 0

回答已采纳

1回答

Pyspark管道在pandas数据帧上的应用

、、、

我有一个pyspark管道(包含估算和一个机器学习模型)和一个pandas数据帧。我是否可以在不将其转换为Pyspark dataframe的情况下将管道应用于此pandas数据帧？如果不可能，我如何有效地使用pyspark管道来生成对pandas数据帧的预测？

浏览 3提问于2021-09-13得票数 1

5回答

E-num / get Dummies in pyspark

、

我想在中创建一个函数PYSPARK获取数据帧和参数列表(代码/分类特征)，并返回带有附加虚拟列的数据帧，如列表PFA中特征在DF之前和之后的类别：数据帧之前和之后- Examplepython中的代码如下所示： enum = ['column1','column2'] for e in enum: print e temp = pd.get_dummies(data[e],drop_first=True,prefix=e) data = pd.concat([data,temp], axis=1) data.drop(e,ax

浏览 115提问于2017-03-15得票数 5

回答已采纳

1回答

分组依据列表中的元素

、、

浏览 4提问于2019-10-09得票数 0

1回答

将列有条件地添加到数据帧中

、、、、

我在PySpark中有一个数据帧。我想有条件地在数据框架中添加一列。如果数据帧没有列，那么添加一个带有null值的列。如果列存在，则不执行任何操作，并返回与新数据帧相同的数据帧。如何在PySpark中传递条件语句

浏览 6提问于2017-01-20得票数 0

回答已采纳

1回答

在pyspark中保持至少有一个元素满足条件的组

、、

我一直在尝试用pyspark重现一些在Pandas中很容易做到的东西，但我现在已经挣扎了一段时间。假设我有以下数据帧： df = pd.DataFrame({'a':[1,2,2,1,1,2], 'b':[12,5,1,19,2,7]}) print(df) a b 0 1 12 1 2 5 2 2 1 3 1 19 4 1 2 5 2 7 和列表 l = [5,1] 我尝试做的是按a进行分组，如果b中的任何元素都在列表中，则为该组中的所有值返回True。然后，我们可以使用结果来索引数据帧。与此相对应的Pandas是：

浏览 8提问于2020-11-04得票数 2

回答已采纳

1回答

PySpark:从数据帧列表创建RDD

、、

我无法从pyspark数据帧列表创建RDD，如下所示： l = [('Alice', 1)] df = sqlContext.createDataFrame(l) m = [('bob', 2)] df2 = sqlContext.createDataFrame(m) df_list = [df, df2] sc.parallelize(df_list) 我得到的错误是：Py4JError: An error occurred while calling o85.__getnewargs__. Trace: py4j.Py4JException: Method

浏览 4提问于2017-04-10得票数 1

1回答

Pyspark:从列表的RDD创建spark数据帧，其中列表的一些元素是对象

、、、、

我正在尝试将pandas.DataFrame代码转换为等效的pyspark DataFrame。我有一个以下格式的RDD。 myRdd = [[1, 'a', {'a':[1, 2]}], [2, 'b', {'c': 1, 'd':3}], [3, 'c', {}]] columnNames = ['sl', 'name', 'params'] 内部列表中的第三个元素没有特定的结构。在pandas数据帧中，我可以

浏览 1提问于2018-04-07得票数 1

1回答

PySpark动态连接条件

、、、

我有PK列的列表。我在存储主键，因为每个表的主键数可能会发生变化。我想根据pk_list中的列连接两个数据帧。 pk_list=['col1',col2', .... 'coln'] 现在，我的代码如下所示： full_load_tbl_nc = full_load_tbl.join(delta_load_tbl, (col(f) == col(s) for (f,s) in zip(pk_list,pk_list) ) , "leftanti") 当我运行代码时，我会得到以下错误：在join "/mnt/yarn/userc

浏览 0提问于2018-12-07得票数 2

1回答

如何从另一个数据帧创建具有列名和类型的JSON

、

我有一个数据帧，模式如下： root |-- Id: integer (nullable = true) |-- Id_FK: integer (nullable = true) |-- Foo: integer (nullable = true) |-- Bar: string (nullable = true) |-- XPTO: string (nullable = true) 根据该数据帧，我希望创建一个JSON文件，其列名和类型如下 { "Id": "integer", "Id_FK": "integer"

浏览 12提问于2019-09-03得票数 0

回答已采纳

2回答

从PySpark数据帧获取第一个元素

、、、

我有一个PySpark数据框架，它只包含一个元素。如何从数据帧中提取数字？例如，如何从PySpark数据帧中获得数字5.0？ +-----------------+ | count | +-----------------+ | 5.0 | +-----------------+

浏览 0提问于2022-07-13得票数 1

回答已采纳

1回答

Pyspark - Loop and for in Range -仅获取最后一个值

、、、、

我想两个两个地合并数据帧的两列，所以我使用了"for in range“函数。但是，在显示时，我只是显示最后的结果。我如何才能在一个数据帧中获得所有结果？下面是我的代码： from pyspark.sql.functions import concat_ws, col df = spark.read.load('abfss://......') for item in range(1,21,2): df2=df.select(concat_ws("/",df[item:item],df[item+1:item+1]).alias(df.c

浏览 21提问于2021-03-10得票数 0

回答已采纳

2回答

在不使用spark_df.collect()的情况下，尝试在pyspark数据帧上进行迭代

、、、

嗨，我试图在不使用spark_df.collect()的情况下在pyspark数据帧上迭代，并且我正在尝试foreach和map方法，还有其他方法来迭代吗？ df.foreach(lambda x: print(x))和 def func1(x): firstname=x.firstname lastName=x.lastName name=firstName+","+lastName gender=x.gender.lower() salary=x.salary*2 return (name,gender,salary)```

浏览 9提问于2022-08-22得票数 0

1回答

用另一个dataframe pyspark中的值替换/查找spark df中一列的值

、、

我有一个包含令牌列表的数据帧。 data1 = [(1, ["This","is", "category", "A"]), (2, ["This", "is", "category", "B","This", "is", "category", "B"]), (3, ["This", "is", "category", "F&#

浏览 0提问于2020-04-22得票数 1

1回答

如何提高Pyspark中toLocalIterator()的性能

、、、、

我正在尝试将Pyspark数据帧转换为140000行的Python列表。我正在使用toLocalIterator()来做这件事，但这需要花费很多时间。我如何加快这一过程？

浏览 52提问于2020-07-08得票数 0

1回答

如何根据行号列表拆分pyspark数据帧的行？

、、、

我已经创建了一个pyspark数据帧，形象化地看起来像这样： >>> df f1 | f2 | ... | fn | row_num ------------------------------ 10 | 50 | ... |100 | 1 20 | 50 | ... |200 | 2 30 | 50 | ... |300 | 3 40 | 50 | ... |400 | 4 50 | 50 | ... |500 | 5 然后我还创建了随机的行号列表，如下所示： my_list = [[2, 5],[4, 1, 3]] 根据这个列表的结构，我

浏览 16提问于2019-04-18得票数 0

回答已采纳

2回答

Pyspark将标准列表转换为数据帧

、、、

这种情况非常简单，我需要使用以下代码将python列表转换为数据帧 from pyspark.sql.types import StructType from pyspark.sql.types import StructField from pyspark.sql.types import StringType, IntegerType schema = StructType([StructField("value", IntegerType(), True)]) my_list = [1, 2, 3, 4] rdd = sc.parallelize(my_list) df

浏览 0提问于2018-01-26得票数 40

回答已采纳

1回答

如何将json对象列表转换为单个pyspark dataframe？

、、、

我是pyspark的新手，我有一个来自api的json列表，每个json对象都有相同的模式(键值对)。像这样 [ {'count': 308, 'next': 'some_url', 'previous': None, 'results': [{'assigned_to': 43, 'category': 'Unused', 'comments': None, 'completed_ts': Non

浏览 18提问于2019-05-28得票数 1

回答已采纳

3回答

`df.loc`的火花源等价？

、、、、

我正在寻找等同于pandas数据帧的pyspark。特别是，我想对pyspark dataframe执行以下操作 # in pandas dataframe, I can do the following operation # assuming df = pandas dataframe index = df['column_A'] > 0.0 amount = sum(df.loc[index, 'column_B'] * df.loc[index, 'column_C']) / sum(df.loc[index, &

浏览 0提问于2018-05-13得票数 8

回答已采纳

1回答

Pyspark -用pysaprk中的第一个单词替换2个或更多连续单词

、、

我有一个超过10000行的pyspark数据帧。我想用第一次出现的单词替换连续的单词。我希望这是在pyspark中完成的。这是包含单词列表的pyspark表。每个单词列表都与每个日期相关。 --------------------------------------------------------------------------------- | event_dt | words | ---------------------------------------

浏览 14提问于2020-10-31得票数 0

1回答

将Numpy数组追加到Pyspark Dataframe中

、、、、

我需要在PySpark数据帧中追加一个NumPy数组。结果需要如下所示，添加var38mc变量： +----+------+-------------+-------+ | ID|TARGET| var38|var38mc| +----+------+-------------+-------+ | 1.0| 0.0| 117310.9790| True| | 3.0| 0.0| 39205.17000| False| | 4.0| 0.0| 117310.9790| True| +----+------+-------------+------

浏览 7提问于2020-12-08得票数 0

回答已采纳

1回答

Pandas dataframe to Spark dataframe“无法合并类型错误”

、、、、

我有csv数据，并使用read_csv创建了Pandas dataframe，并强制所有列为字符串。然后，当我尝试从Pandas数据帧创建Spark数据帧时，我得到了下面的错误消息。 from pyspark import SparkContext from pyspark.sql import SQLContext from pyspark.sql.types import * z=pd.read_csv("mydata.csv", dtype=str) z.info() <class 'pandas.core.frame.DataFrame'>

浏览 6提问于2016-08-06得票数 33

回答已采纳

1回答

如何在pyspark中对整列的值求和

、

我有一个有900列的数据帧，我需要pyspark中每列的总和，所以它将是一个列表中的900个值。请告诉我怎么做好吗？数据大约有280mil行，全部是二进制数据。

浏览 108提问于2020-04-14得票数 2

回答已采纳

2回答

如何从不同列的PySpark数据框中提取数组元素？

、

我有以下PySpark输入数据帧： +-------+------------+ | index | valuelist | +-------+------------+ | 1.0 | [10,20,30] | | 2.0 | [11,21,31] | | 0.0 | [14,12,15] | +-------+------------+ 其中：矢量索引:类型DoubleValuelist:类型。(不是Array)，而是从上面的输入数据帧中，我希望在PySpark中获得以下输出数据帧 +-------+-------+ | index | value | +-------+

浏览 105提问于2018-08-04得票数 2

2回答

要为每行pyspark dataframe计算多个if elif条件

、、、

我需要帮助在pyspark数据帧主题。我有一个数据框架，比如1000+列和100000+ rows.Also，我有10000+ if elif条件，在每个if else条件下，只有很少的全局变量被一些值递增。现在我的问题是，我如何才能仅在pyspark中实现这一点。我读到了过滤器和where函数，它们根据条件返回行，我需要检查这些10000+ if else条件并执行一些操作。任何帮助都将不胜感激。如果你能给出一个小数据集的例子，那将会有很大的帮助。谢谢你

浏览 0提问于2017-07-25得票数 0

1回答

将pandas数据帧转换为PySpark数据帧

、、、、

我有一个脚本与下面的设置。我正在使用： 1)用于拉取数据的Spark数据帧2)在初始聚合后转换为pandas数据帧3)想要转换回Spark以写入HDFS 从spark --> Pandas的转换很简单，但我正在为如何将Pandas数据帧转换回Spark而苦苦挣扎。你能给点建议吗？ from pyspark.sql import SparkSession import pyspark.sql.functions as sqlfunc from pyspark.sql.types import * import argparse, sys from pyspark.sql import

浏览 1提问于2018-10-23得票数 15

回答已采纳

1回答

pyspark将数组类型的列拆分成多列

、

在对数据集运行pyspark中的ALS算法后，我遇到了一个最终的数据帧，如下所示 ? 推荐的列是数组类型，现在我想拆分这一列，我的最终数据帧应该如下所示 ? 谁能建议我，哪个pyspark函数可以用来形成这个数据帧？数据帧的模式 root |-- person: string (nullable = false) |-- recommendation: array (nullable = true) | |-- element: struct (containsNull = true) | | |-- ID: string (nullable =

浏览 61提问于2021-07-11得票数 0

回答已采纳