在pyspark中逐行操作或逐行对数据帧执行UDF操作

、、、

我必须在pyspark中实现pandas .apply(function，axis=1) (以应用行式函数)。由于我是一个新手，我不确定它是否可以通过map函数或使用UDF来实现。基本上，我要做的就是将一行传递给一个函数，执行一些操作来创建依赖于当前行和前一行的值的新列，然后返回修改后的行来创建新的数据帧。如果有人能指导我如何在pyspark中实现行操作，那将是一个很大的帮助。提亚

浏览 33提问于2017-03-05得票数 1

1回答

在pyspark的regexp_replace函数中使用字典

、、、

我想使用字典对pyspark dataframe列执行regexp_replace操作。字典：{'RD':'ROAD','DR':'DRIVE','AVE':'AVENUE',....}字典将有大约270个键值对。输入数据帧：1 | 22, COLLINS RD 2 | 11, HEMINGWAY

浏览 0提问于2018-05-08得票数 1

1回答

如何在没有使用UDF的情况下对Spark SQL结果进行后处理

、、、

我读过在我的例子中，我执行了如下查询from A ...我使用MYFUN逐行对查询结果进行后处理，例如，将它们发送到另一个服务。 service.send(f1, f2, ...)session.udf.register('MYFUN', my_fun) 在没有

浏览 1提问于2019-03-07得票数 0

1回答

从Scala中的挂载路径逐行读取文本文件

、、

我打算从挂载路径逐行读取csv文件，对每一行执行一些操作，然后将其写回一个新的csv文件。使用下面的命令读取文件，但显示找不到文件。我可以读取数据帧中的文件，但无法使用以下代码执行此操作。java.io.FileNotFoundException: /mnt/jomount/ProductDetails.csv (No such file or directory) 我还想知道我们如何在每一行上执

浏览 19提问于2020-06-13得票数 0

1回答

Scala中的Spark分组贴图UDF

、、

我正在尝试编写一些代码，使我能够在数据帧的一组行上计算一些操作。在PySpark中，这可以通过定义类型为GROUPED_MAP的Pandas UDF来实现。然而，在Scala中，我只找到了一种创建自定义聚合器(UDAF)或传统UDF的方法。我的临时解决方案是生成一个关键字列表，该列表将对我的组进行编码，这将允许我过滤数据帧并对数据帧</

浏览 2提问于2020-04-08得票数 2

1回答

中的标量UDF只返回查询中的一个值

、、

我想使用像下面这样的标量UDF来执行逐行操作(我知道这种操作的性能限制)。 RETURN @value 然后从这样的查询中调用函数assessmentData.weekReviewWk1 = dbo.correctAbsenceLess25(assessmentStagin

浏览 1提问于2016-02-09得票数 0

回答已采纳

1回答

来自配置单元查询的持久PySpark数据帧

、、、

我正在从一个Hive表中获取一些数据：import pyspark.sql.functions as func from datetime import datetimefrom <e

浏览 1提问于2016-03-29得票数 1

2回答

PySpark -逐行转换为JSON

、、、

我有一个非常大的pyspark数据框架。我需要为每一行将数据帧转换为JSON格式的字符串，然后将该字符串发布到Kafka主题。我最初使用的是以下代码。for message in df.toJSON().collect():但是，数据帧非常大，因此在尝试collect()时会失败我在考虑使用UDF，因为它逐行处理它。from pyspar

浏览 3提问于2018-01-31得票数 7

回答已采纳

4回答

R编程:数据帧中一组列之间的布尔操作

、、

在R中，如果数据帧是由未知数量的列和行构造的，那么如何执行逐行或逐列的布尔操作。random.boolean.dataframe <- as.data.frame(random.boolean.matrix) 假设随机数据帧原来是> random.boolean.dataf

浏览 1提问于2017-05-17得票数 1

0回答

PySpark -矩阵的SparseVector列

、、

我对使用PySpark非常陌生。我的PySpark数据框中有一列SparseVectors。，其中矩阵中的每一行都对应于数据帧中确切行中的一个SparseVector。---+[[0,45,63,0,0,0,0][0,89,56,0,0,0,0]] 我已经阅读了下面的链接，它显示了一个函数toArray()，它可以执行我想要的操作然而，我在

浏览 2提问于2017-12-06得票数 3

回答已采纳

2回答

Python导入/读取外部文件

、、

我希望将其他python/csv文件导入到python中来执行一些操作。将表数据(以流形式逐行流)与外部.csv行进行比较。虽然代码在编写为常规python脚本(不像udf)时运行得很好。

浏览 1提问于2016-03-28得票数 2

回答已采纳

1回答

把熊猫变成火花公子

column1, right_on=column2, window=41) 它基本上比较一列和另一列，并为可能相同的列生成索引对(我的代码：df2 = spark.read.load(*.csv) func_udf = udf(index.indexer) ????df = df.withColumn('column1',func_udf(df1.column1

浏览 0提问于2018-07-25得票数 0

回答已采纳

0回答

如何在PySpark中创建一个返回字符串数组的自定义函数？

、、、、

我有一个返回字符串列表的udf。这应该不会太难。我在执行udf时传入了数据类型，因为它返回一个字符串数组：ArrayType(StringType)。现在，不知何故，这不起作用：df_subsets_concat.show(3,False) my_udf<

浏览 6提问于2017-12-07得票数 26

回答已采纳

2回答

DataFrame在PySpark中的逐行操作

、、

如果有一个DataFrame，并希望根据行的值对函数中的数据进行一些操作。my_udf(row): if row.val_x > threshold return row return row 有人知道如何将我的udf

浏览 1提问于2017-08-22得票数 1

回答已采纳

2回答

Spark在csv文件python的所有行之间查找特定字符串

、、

我使用的是pyspark，我有一个很大的csv文件。csv文件有多行<ABCasdfasdfadsPQR> ...\PQR', s) 但我只能对第一行执行此操作。如何对该行的所有文件执行此操作。我需要逐行迭代，并将匹配的regex的输出写到一个列表中，如果它适合内存或文件。我已经使用spar

浏览 1提问于2017-10-11得票数 0

4回答

Pyspark:如何将spark dataframe转换为json并保存为json文件？

、、、

我正在尝试将我的pyspark sql dataframe转换为json，然后保存为文件。True) {"Variable":"Col2","Min":"25,"Max":"40"} 我期望的文件应该包含如下数据

浏览 0提问于2018-11-22得票数 7

2回答

对每一行应用标量函数

、

我有一个函数是这样工作的：select score from comparestrings(@String1,@string2) 我需要将表中的每一行( @string1 2)与@string1 1进行比较

浏览 0提问于2011-08-02得票数 2

回答已采纳

3回答

`df.loc`的火花源等价？

、、、、

我正在寻找等同于pandas数据帧的pyspark。特别是，我想对pyspark dataframe执行以下操作# assuming dfdf.loc[index, 'column_B'] * df.loc[index, 'column_C']) / sum(df.loc[index, &#

浏览 0提问于2018-05-13得票数 8

回答已采纳

1回答

Scipy操作是逐行完成的，而不是像Matlab中那样逐列完成的吗？

、、

对于二维数组，scipy.fftpack.fft似乎是逐行工作的。对我来说，这非常令人困惑，因为在Matlab中，这样的操作是逐列完成的。scipy中的所有其他操作也是逐行执行的吗？我可以像在Matlab中那样在NumPy/SciPy中逐列执行操作吗？

浏览 0提问于2015-08-22得票数 2

1回答

Pandas数据帧中的逐行操作

、、

我有一个具有此格式的World指示器数据集USA 1970 Agriculturalmx_value_2000 country year crop_prod_density USA 1970 us_value

浏览 2提问于2017-11-29得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在pyspark的regexp_replace函数中使用字典

如何在没有使用UDF的情况下对Spark SQL结果进行后处理

从Scala中的挂载路径逐行读取文本文件

Scala中的Spark分组贴图UDF

中的标量UDF只返回查询中的一个值

来自配置单元查询的持久PySpark数据帧

PySpark -逐行转换为JSON

R编程:数据帧中一组列之间的布尔操作

PySpark -矩阵的SparseVector列

Python导入/读取外部文件

把熊猫变成火花公子

如何在PySpark中创建一个返回字符串数组的自定义函数？

DataFrame在PySpark中的逐行操作

Spark在csv文件python的所有行之间查找特定字符串

Pyspark:如何将spark dataframe转换为json并保存为json文件？

对每一行应用标量函数

`df.loc`的火花源等价？

Scipy操作是逐行完成的，而不是像Matlab中那样逐列完成的吗？

Pandas数据帧中的逐行操作

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐