Pyspark:对dataframe中的每一行应用正则表达式的UDF

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

不能在pyspark中使用python eval()作为pandas udf，但在python udf中使用相同

、、、、

我是pyspark中的pandas udf的新手，需要帮助为大型数据帧(>1亿行)中的每一行应用udf。我的dataframe中有一列，其中包含使用dataframe中的列的多个条件。对每一行应用条件的</e

浏览 29提问于2021-06-25得票数 0

1回答

我是否需要使用普通的python，除了pyspark，或者pyspark拥有我所需要的所有东西？

、、、

我的公司正转向使用Hadoop & learning进行机器学习。我知道python在库中是非常全面的，但是当我们切换到pyspark时，如果我们需要的东西还没有在pyspark中可用呢？而且，继续使用python可能更容易一些，因为我已经知道了python.So：你能把它们混合在一起，用python

浏览 4提问于2017-08-30得票数 0

1回答

如何在没有直接连接列的两个数据帧之间找到最匹配的行？

、、、、

对于pyspark数据帧中的每一组坐标，我需要在另一个数据帧中找到最接近的一组坐标我有一个包含坐标数据的pyspark dataframe (dataframe a)： +---------| | 34.9428028| -97.8180194| 和另一个类似的(dataframe1

浏览 22提问于2020-07-20得票数 0

2回答

计算PySpark中每一行的唯一值

、、、、

我有PySpark DataFrame： StructField("col1", StringType, "cc", "dd"),我需要计算每一行

浏览 6提问于2022-10-17得票数 1

回答已采纳

1回答

、、、

我想要检查数据帧中的每一行，看是否有可能在保存文件时扰乱我的模式的时髦字符。我在我的文件中读到： a = spark.read.csv( "s3a://mybucket/ML_teradata_feeds/PTEF/AM_PROGRAM_TUNING_EVENT_FACTUDF，并在udf中运行每一行</e

浏览 50提问于2020-10-16得票数 0

1回答

AWS胶水是否可以逐行处理记录

、、

我需要逐行处理从一个红移集群到另一个红移集群的记录。我们希望按行处理，因为我们希望以不同的方式处理失败/无效的记录。另一个好处是，我们希望避免在一条记录失败的情况下进行批量重新处理。如果这不适合，有没有其他提供行处理功能的工具？

浏览 6提问于2018-01-25得票数 0

回答已采纳

2回答

如何在PySpark中求数组的平均值

、、、、

我有一个PySpark Dataframe，其中一个列(比如B)是一个数组。] |f |+---+-----------------------------+---+目前，我正在使用一个udf来完成这些

浏览 11提问于2019-12-10得票数 0

回答已采纳

1回答

使用多个窗口过滤PySpark数据的行

、、、、

我正在尝试基于时间戳[(start1, stop1), (start2, stop2), ...]的元组列表来筛选Pyspark。每个元组表示一个时间窗口。，var是感兴趣的变量的列。和一个for循环来生成一个工作代码片段，它可以在所有时间窗口中对每一行进行迭代(参见下面的代码)。然而，对于所有时间窗口中的每一行，循环都是缓慢的。预先不知道时间窗口的大小和数目

浏览 1提问于2018-09-02得票数 0

回答已采纳

1回答

如何从PySpark中的向量列中提取浮点数？

、、、、

我的星火DataFrame有以下格式的数据：printSchema()显示每一列都是vector类型的。我尝试使用下面的代码从[和]中获取值(对于1列col1)：from pyspark.sql.types import FloatTypefirstelement=udf(lambda v:float(v[0]),FloatTy

浏览 0提问于2020-02-18得票数 1

回答已采纳

1回答

方法用于PySpark* DataFrame的所有行。*

、、

我在为PySpark (python=2.7，pyspark=1.6)上的任务设计一个工作的python=2.7时遇到了麻烦。我有一个data DataFrame，它看起来像这样：| sequence|| ideafound today| |administration in| +--------------

浏览 0提问于2018-04-26得票数 0

回答已采纳

2回答

PySpark将算法转换为UDF，并将其应用于DataFrame

、、、

x = x + 1现在，我希望将此“算法”转换为PySpark中的用户定义函数( UDF )，然后将该UDF应用到具有一列的DataFrame中。这个DataFrame的每一行都有一个

浏览 1提问于2020-01-15得票数 2

回答已采纳

1回答

火花放电的UDF能返回与列不同的对象吗？

、、、

我想将一些函数应用到pysaprk dataframe的列中，这是一个用UDF实现这一点的管理方法，但是我希望返回是另一个对象，而不是dataframe的一个列、一个熊猫数据框、一个python列表等等我使用分类器将每一列划分为类，但我希望结果是类的摘要，而不是修改，我不知道这是否适用于UDF。我的代码是这样的import

浏览 0提问于2018-12-18得票数 1

回答已采纳

1回答

如何将udf添加到sqlContext中

、、

", example)或者我可以用udf包装Python函数，这样就可以将它应用于dataframe：from pyspark.sql.types import IntegerType example_udf = udf(example

浏览 1提问于2018-04-13得票数 0

回答已采纳

2回答

UDF在PySpark中运行两次

、、

我定义了一个包装器UDF，它包含string_replacement并应用于数据帧的每一行。只有name列被传递给字符串操作函数。这是代码from pyspark.sql import *from pyspark.sql.typesto apply the wrapper function to the dataframe n

浏览 0提问于2019-09-17得票数 3

1回答

通过迭代另一个dataframe中的列表列来创建数据帧

、、、、

在DataFrame中，我有一个包含有序节点的列表的列：Out[1]: StructType(List(StructField(id,LongType,true),(节点列表)创建一个带有一行的数据，然后将其保存为拼图。预期结果的长度为n-1，每一行都有n个len(nodes)。split = udf(lambda row: split_ways_into_arcs(row.asDict

浏览 3提问于2021-10-07得票数 1

回答已采纳

1回答

我的逻辑是首先使用过滤器来生成子集，然后行数就是电影的数量。在此之后，我用这个UDF创建了一个新的专栏。有没有一种方法可以使用基本的火花函数来生成一个UDF？所以我把name列变成一个列表，然后循环遍历这个列表，但是它非常慢--我相信这样我就不会做分布式计算了。1)我的首要任务是弄清楚如何用spark_df.filter这样的基本函数在pyspark的一列中循环信息。( 2)我们能否先将名称列变成

浏览 2提问于2017-05-02得票数 1

回答已采纳

3回答

将一列舍入到另一列指定的精度。

、、

我正试图在pyspark中创建一个UDF，以使一列的精度达到在每一行中由另一列指定的精度，例如，下面的数据文件：| Data|Rounding||3.141592| 3|+--------+--------++---pdDF = pd.Dat

浏览 0提问于2018-10-08得票数 1

回答已采纳

1回答

PySpark + AWS : df.count()需要很长时间才能完成

、、

我使用动作count()来触发我的udf函数来运行。这是可行的，但是在我的udf函数运行完成很久之后，df.count()需要几天的时间才能完成。'，2000000 (设置在火花放电脚本中)下面是我们脚本的实际结构。定制的熊猫udf函数为每一行调用一个PostGres数据库。from pyspark.sql.functions imp

浏览 4提问于2020-07-13得票数 1

1回答

如何将DataFrame作为输入传递给Spark UDF？

、、、

我有一个dataframe，我想对每一行应用一个函数。此函数依赖于其他数据帧。 ['d', 5, 22, 0.9]对于df的每一行['c'

浏览 0提问于2017-11-27得票数 7

回答已采纳

1回答

过滤Spark SQL数据帧中的距离

、、、、

我有一个带有纬度和经度列的Spark SQL DataDrame，我试图通过计算到输入的距离来过滤低于阈值的行。我当前的代码看起来像这样。我使用geopy (great_circle)来计算后面长对之间的距离。Cannot convert column into bool: please use '&' for 'and', '|' for 'or', '~' for '

浏览 11提问于2017-12-19得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

不能在pyspark中使用python eval()作为pandas udf，但在python udf中使用相同

我是否需要使用普通的python，除了pyspark，或者pyspark拥有我所需要的所有东西？

如何在没有直接连接列的两个数据帧之间找到最匹配的行？

计算PySpark中每一行的唯一值