从Pandas到PySpark的.apply相等

文章/答案/技术大牛

发布

1回答

、、

我在pyspark上有以下数据帧 +--------------------+-----++--------------------+---33339||Generar archivo p...| 269|else: return f

浏览 25提问于2020-08-07得票数 0

1回答

我正在尝试在pyspark (Spark 2.4.5)中应用非常简单的Pandas UDF，但是它对我不起作用。示例： pyspark --master local[4] --conf "spark.pyspark.python=/opt/anaconda/envs/bd9/bin/python3" --conf= StructType([StructField("uid", StringType())])

浏览 7提问于2020-07-03得票数 1

回答已采纳

2回答

如何将Python Pandas函数转换为Python PySpark

、、、

我目前在将Python Pandas函数转换为Python PySpark时遇到了一个问题，因为它们是不同的库。我想要做的是有一个查询函数，然后将它应用回相同的列。这是我为Python Pandas所做的(Age是我试图从中检索的数据集中的列)：它在Python Pandas</e

浏览 17提问于2020-05-18得票数 0

回答已采纳

1回答

如何在火花放电中计算指数加权移动平均

、、、

我试图使用分组Map在PySpark中运行指数加权移动平均。但是，它不起作用： from pyspark.sql.functions(schema, PandasUDFType.GROUPED_MAP) Model = pd.DataFrame(pdf.apply(lambda xx['count&#

浏览 0提问于2018-04-30得票数 3

2回答

使用部分函数的pyspark* pandas_udf出错*

、、、

我定义了一个pandas udf函数，并希望将除pandas.Series或pandas.DataFrame之外的其他参数传递给udf函数。我想使用partial函数来做这件事，但它出错了。我的代码如下： from functools import partial from pyspark.sql importSparkSession from pyspark.s

浏览 15提问于2019-12-18得票数 0

回答已采纳

1回答

PySpark访问DataFrame列的foreachPartition()自定义函数

、、、、

我有一个叫做“内部”的函数。我想要将这个函数应用到中。为此，我在我创建的dataframe上调用"foreachPartition(inside)“方法。"small_df=sqlContext.createDataFrame(small) #create dataframe我的问题是:如何得到数据的第一列(Lon)、第二列(Lat)和第三列(T)的值？我也试着用row.lon，row.select来做，把

浏览 1提问于2018-05-22得票数 0

回答已采纳

1回答

如何将pyspark数据帧拆分成多个记录数相等的数据帧

我有一个pyspark数据帧，我想把它分成多个相等记录的数据帧。我在AWS EMR上执行此任务，不支持pandas或numpy。

浏览 22提问于2019-12-22得票数 0

2回答

熊猫的UDF功能需要非常长的时间才能完成大数据

、、、

我是PySpark和Pandas的新手，我运行以下Pandas函数来混淆包含字符串的列(例如:输入'Luke‘将导致'ulek')def jumble_string(column: pd.Series)-> pd.Series: return column.apply(lambda x: None if x==None else ''.join(r

浏览 1提问于2021-08-30得票数 1

回答已采纳

4回答

使用带参数的分组Map Pandas* UDF*

、、、

我希望使用data.groupby.apply()将函数应用到每个组的Pyspark的每一行。我还尝试了在这个问题中提出的解决方案(对熊猫数据格式) @pandas_udf(schema,PandasUDFType.GROUPED_MAPinterval.filter(interval

浏览 0提问于2019-04-30得票数 22

1回答

将字符串的部分大写在星火中

、、、、

浏览 13提问于2022-10-03得票数 0

1回答

pandas的等价物是否适用于pyspark？

、

我真的希望能够在spark数据帧的整个列上运行复杂的函数，就像我在Pandas中使用apply函数所做的那样。例如，在Pandas中，我有一个apply函数，它接受一个混乱的域，比如sub-subdomain.subdomain.facebook.co.nz/somequerystring，然后输出facebook.com假设我有一个如下所示的简单函数，我从pandas DF列中提取日期<

浏览 23提问于2020-04-05得票数 2

1回答

在PySpark* Pandas UDF中指定用户定义函数的正确方法*

、、、、

我使用的是pyspark 2.4.2，所以对于这个版本的docs，可以这样做来创建一个GROUPED_MAP： from pyspark.sql.functions import pandas_udfPandasUDFType.GROUPED_MAP) v = pdf.v df.groupby("id").apply(subtract_

浏览 11提问于2021-01-08得票数 0

回答已采纳

1回答

Pandas和Pandas被证明可以一起工作吗？

、、、、

我面临许多问题，集成/添加Pandas现有代码的Pandas代码。2)如果我选择使用Pandas和pandas在同一代码中处理不同的数据集，当通过map调用的函数包含任何熊猫数据时，Pyspark转换(如map)似乎根本不起作用。我在Python中已有使用熊猫和numpy的代码，并且在一台机器上工作得很好。我最初试图将整个代码转换为的尝试失败了，因为不支持Pandas所做的</em

浏览 2提问于2017-12-26得票数 6

1回答

iter()上的熊猫没有实现

、、、、

目前，我正在尝试将一些过程从python迁移到(熊猫上) some，以衡量性能，直到现在，一切都进行得很顺利：nlp定义为：nlp = spacy.loadpreproc_pipe 我在nlp.pipe(texts，batch_size=20)上发现了用于文档的错误= len(value): /d

浏览 9提问于2022-03-09得票数 1

1回答

如何在pyspark中执行嵌套应用？

、、、

我正在尝试从pandas切换到pyspark，并执行以下操作：对于每个员工(employee列)，我们都有几条记录指示他在给定时间(date_key)受雇的职位(position)。我们想要计算该员工从每个时间戳回顾了三年的不同职位。在pandas中，使用它就足够了： df.apply(lambda tmp: tmp.apply(lambda x: tmp.loc[(tmp['date_key'] >= x

浏览 32提问于2021-02-10得票数 0

1回答

pyspark.sql 'pandas_udf()‘函数之前的冒号(:)？

、、

在pyspark.sql模块的apply()文档中，在函数'pandas_udf()‘之前提供了包含冒号的代码。这意味着什么，为什么包括在内？我在运行这一行时会遇到语法错误。文档中的代码如下。from pyspark.sql.functions import pandas_udf, PandasUDFType [(1, 1.0), (1, 2.0), (2, 3.0), (2,

浏览 0提问于2019-07-24得票数 1

回答已采纳

1回答

如何使用Azure databricks在第二代ADLS的多张工作表中读写excel数据

、、、

我想使用pyspark在Azure databricks中实现以下逻辑。我有一个下面的文件，其中有多张纸。我想将所有工作表的数据读入一个不同的文件中，并将该文件写入到ADLS2中的某个位置。注意:所有工作表都有相同的模式( Id，名称)

浏览 4提问于2021-10-27得票数 0

2回答

要应用于PySpark中的窗口的用户定义函数？

、、、、

我正在尝试将用户定义的函数应用于PySpark中的窗口。我读到过UDAF可能是可行的，但我找不到任何具体的东西。举个例子(取自此处：，并针对PySpark进行了修改)：from pyspark.sql import SparkSessionfrom pyspark.sql.func

浏览 0提问于2018-01-09得票数 11

回答已采纳

1回答

在Amazon EMR上运行Python UDF

、、

我的脚本当前如下所示：from pyspark.sql.functions import pandas_udffrom pyspark.sql.types import *import pandas/std

浏览 0提问于2019-12-14得票数 0

1回答

如何对pyspark* dataframe列应用函数*

、、

我正在尝试将我的pandas代码转换为pyspark dataframe，并尝试在dataframe的一列上应用函数。我在pandas dataframe中做了一些如下的事情。在操作了几个列值之后，将新列添加到pandas数据帧中，如下所示。Calendar year'], row['Calendar month'], 1)) salesData['Sales (INR)'] = s

浏览 15提问于2020-01-03得票数 1

回答已采纳

点击加载更多