如何将pandas udf应用于大型矩阵数据帧

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、、、、

我对Spark和Pandas真的很陌生。我想将pandas UDF应用于没有任何列名的大型numpy.ndarray矩阵。我应该如何定义UDF函数的输入？这就是我所做的。row是cassandra数据库中的一行，'b2‘是数据库中图像的列名。

浏览 12提问于2019-08-02得票数 0

1回答

我正在尝试按照groupby('Key').apply(UDF)方法将pandas_udf应用于我的PySpark数据帧以进行一些过滤。为了使用pandas_udf，我定义了一个输出schema，并在列Number上有一个条件。作为一个例子，这里的简化思想是我只希望返回具有奇数Number的行的ID。这就带来了一个问题，有时在一个组中没有奇怪的Number，因此UDF只返回一个空的数据帧<

浏览 2提问于2020-05-18得票数 3

1回答

将文本预处理函数应用于scala spark中的dataframe列

、、

我想创建一个函数来处理我在处理文本数据时遇到的问题。我熟悉Python和pandas数据帧，我通常认为解决问题的过程是使用一个函数，然后使用pandas apply方法将该函数应用于列中的所有元素。我需要对三个独立的数据帧进行大约20次替换，所以用这种方法解决这个问题需要60行代码。有没有一种方法可以在一个函数中进行所有替换，然后将其应用于scala中数据帧列中的所有元素？, " &quo

浏览 9提问于2019-12-26得票数 0

回答已采纳

1回答

使用panda.read_csv与使用numpy.loadtext时的输出差异

、

参考代码： import numpy as npdata = pd.read_csv('ex1data2.txt', sep = ',', header = None

浏览 78提问于2021-06-29得票数 2

回答已采纳

1回答

数据帧上的spark GROUPED_MAP udf是否并行运行？

、、、

我正在尝试应用一个PandasUDFType.GROUPED_MAP函数，该函数将一个数据帧作为输入，并产生一个数据帧作为输出。当我执行sdf.groupby(key).apply(pandas_udf)时，它是基于可用资源将函数并行应用于多个组，还是按顺序将函数应用于一个组后另一个组？我还没有更改spark的任何默认设置。如果我想在组上并行执行udf，我还可以采用哪些替代方法？

浏览 41提问于2020-08-11得票数 0

0回答

使用MinMaxScaler归一化邻接矩阵(以pandas表示)

、、、

我有一个项目与项目的邻近度矩阵(dm)；两个项目(例如，item0，item1)之间的值是指这两个项目一起出现的次数。如何将pandas中的所有值从0缩放到1？from sklearn import preprocessing但是，我不确定如何将scaler应用于pandas数据帧。

浏览 0提问于2016-07-06得票数 0

回答已采纳

1回答

Spark中的用户定义函数(UDF)是否在集群工作节点上并行运行？

、

假设我在python中创建了一个函数，所以将一个数字求幂为2： def squared(s):%sql select id, squaredWithPython(id) as id_s

浏览 33提问于2019-10-10得票数 0

回答已采纳

2回答

Pyspark:在数据帧的不同组上应用kmeans

、、、

使用Pyspark，我希望将kmeans单独应用于数据框架的组，而不是一次性应用于整个数据框架。目前，我使用了一个For循环，它在每个组上迭代，应用kmeans并将结果附加到另一个表。

浏览 0提问于2017-11-10得票数 12

1回答

pandas_udf和to_pandas的区别是什么？

、

当我用熊猫清理大数据的时候，我有两种方法:一种是从pyspark 2.3+清洁数据中使用sdf，另一种是通过toPandas()将sdf转换成pdf，然后使用熊猫进行清洁。

浏览 1提问于2019-01-21得票数 1

回答已采纳

1回答

不能在pyspark中使用python eval()作为pandas* udf，但在python udf中使用相同*

、、、、

我是pyspark中的pandas udf的新手，需要帮助为大型数据帧(>1亿行)中的每一行应用udf。我的dataframe中有一列，其中包含使用dataframe中的列的多个条件。同样，在Pandas udf中尝试运行失败时，会抛出Python异常"PythonException:从UDF抛出异常：'TypeError: eval() arg1必须是字符串、字节或代码对象‘“ 示例代码如下from pys

浏览 29提问于2021-06-25得票数 0

1回答

Pyspark -调用返回Series.interpolate()作为结果的pandas_udf时出错

、、、

我试图创建一个返回interpolation函数的UDF，但该函数返回一个序列，带有索引并抛出异常。from pyspark.sql.types import FloatType defudf_interpolate(v):df = spark.createDataFrame([ (nam

浏览 16提问于2019-02-07得票数 1

1回答

如何在Python中将.astype()方法应用于数据帧？

、、

我想使用.astype方法将数据帧(pandas)中的多个列转换为"category“类型。通常，问题是如何将方法(.astype)应用于数据帧？我知道如何将方法应用于数据帧中的列，但是，将其应用于数据帧并不成功，即使使用for循环也是如此，因为for循环返回一个序列，而.cat.codes方法不适用于该序列。

浏览 9提问于2020-07-07得票数 1

回答已采纳

1回答

Pyspark是spark.lapply的替代品？

、、、

我有一个计算密集型的python函数，在for循环中反复调用(每次迭代都是独立的，即令人尴尬的并行)。我正在寻找spark.lapply (来自SparkR)的一种功能，以利用星火集群。

浏览 1提问于2019-08-05得票数 0

1回答

我需要一些建议来加速python代码的数据清理

、、、、

我正在使用python notebook (jupyter)运行一个辅助数据分析项目。数据集有大约1.3行，我要做的第一件事是从数据集中的'date‘列中提取日、月和年。我估计可能需要一个半小时才能完成数据处理过程。我想知道是否有人可以对我的代码提出一些建议来提高速度？calendar_total.append(new_calendar)同样，我们的目标是从'day‘列中提取年/月/日，并将

浏览 4提问于2017-02-02得票数 0

1回答

如何将所有有窗口的值传递给pyspark

、、、、

我想在dataframe上执行以下操作： from pyspark.sql import SparkSessionss = SparkSession.builderfrom pyspark.sql.functions import udf我也试过熊猫UDF。我用熊猫获得了我的预期产量(见下文)。但是，“应用”方法不返回窗口列。

浏览 0提问于2019-02-15得票数 1

2回答

如何在DataFrame中跨组使用QuantileDiscretizer？

、、、

show_name: string (nullable = true)这是关于客户观看某个特定节目的次数的数据该数据集总共有1.33亿行，具有192个不同的show_names。对于每个单独的节目，我应该将客户分成3类(1,2,3)。

浏览 0提问于2017-05-03得票数 5

1回答

如何将返回pandas数据帧的函数应用于一系列输入，以便返回单个数据帧？

、、、

我在Python语言中使用Pandas，它返回一个alpha_vantage数据框表。我已经编写了一个函数，如下所示，它接受一个股票名称，重置数据帧的索引并将其重命名。如何将此函数应用于几个输入，以便为它们返回单独的数据帧？目前，我必须手动完成此操作，并为每个输入单独运行该函数。如果我用股票列表创建一个pandas序列，并将函数应用于该序列，是否有效？'compact') ticker

浏览 18提问于2021-02-07得票数 0

回答已采纳

2回答

将numpy矩阵转换为一组pandas级数

、、

问:有没有一种快速的方法将2D Numpy矩阵转换为一组Pandas系列？例如，(100 x5) ndarray，到5个系列，每个系列有100行。背景:我需要使用随机生成的不同类型的数据(浮点数、字符串等)创建一个pandas数据帧。目前，对于float，我创建了一个numpy矩阵，对于strings，我创建了一个字符串数组。然后，我将所有这些内容与axis=1结合起来，形成一个数据帧。这不会保留每个单独列的数据类型

浏览 29提问于2021-04-29得票数 0

回答已采纳

1回答

pyspark pandas* udf RuntimeError:返回的列数与指定的架构不匹配*

、、

我有下面定义的pandas udf schema2 = StructType([ StructField('sensorid', IntegerType(), True),def PreProcessconfidence']) df['s

浏览 76提问于2020-08-14得票数 5

1回答

从熊猫到pandas_udf转换申请

、、、

如何将以下示例代码转换为pandas_udf： some code that applies to each row(非分组)，该函数适用于熊猫数据的每一行，并生成一个输出。理想情况下，我将df_contracts_courses作为火花数据，并将pandas_udf函数直接应用到它。我试着编写，将一个单调递增的ID添加到spark，并根据该ID进行分组，并将panadas

浏览 14提问于2022-10-17得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云