PySpark udf中的Numpy randint返回意外的值

、、、、

我创建了一个自定义函数来在PySpark数据帧的列中生成随机的10位整数： phone_udf = F.udf(lambda: np.random.randint(low = 1111111111,hh_address_id", (F.rand() * address_filtered_count).cast("int"))\ .withColumn("phone", phone_udf()

浏览 20提问于2021-07-13得票数 0

回答已采纳

1回答

将一个列添加到现有的数据格式中，并在Pyspark中使用随机的固定值。

我对Pyspark还不熟悉，我正在尝试在我现有的dataframe中添加一个新的列。新列应该只包含4个固定值(例如1,2,3,4)，我想随机为每一行选择一个值。我怎么能这么做？

浏览 2提问于2016-06-29得票数 1

回答已采纳

1回答

在Python中创建PySpark UDF访问实例变量

、、、、

我试图应用一个PySpark UDF将一个新列添加到类内的PySpark DataFrame中。Spark必须是一个静态方法，才能在类中使用。下面的示例Case 1运行良好。我想知道在上面的示例中是否有任何方法可以使PySpark UDF访问实例变量？我知道解决方案，其中定义了UDF，在中定义了UDF，这个方法在本例中调用UDF (calculate_new_ma

浏览 8提问于2022-10-24得票数 0

1回答

计算日期之间的天数，忽略周末使用火星雨。

、

如何使用pyspark计算两个日期之间的天数(忽略周末)import numpy as npfrom pyspark.sql.types import IntegerType, end)) # numpy returns an `numpy.int6

浏览 3提问于2020-09-28得票数 4

回答已采纳

1回答

Pyspark dataframe从函数返回添加列

、

我想从函数结果中随机地将值分配给新列的行。就像这样。def getRandomString():在结果中，我得到了我的第一个随机结果，但对所有行重复了第一个随机输出。如何获得每行的新结果？

浏览 0提问于2021-09-24得票数 1

2回答

如何在pyspark pandas_udf中记录/打印消息？

、、、

我已经测试过logger和print都不能在pandas_udf中打印消息，无论是集群模式还是客户机模式。测试代码：import numpy as npfrom pyspark.sql.functions(1, 10, (20,)), 'ds': np.random.randint(1000, 9999, (20,)),

浏览 0提问于2019-07-24得票数 6

2回答

用groupBy计算PySpark数据的百分位数

、、、、

我正在尝试groupBy，然后计算PySpark数据的百分位数。我已经根据测试了下面的代码import pyspark.sql.functions as funcdf_out = df_in.groupBy&

浏览 0提问于2018-12-14得票数 2

回答已采纳

1回答

改进Pandas在火花放电中的应用

、、、、

我必须在Pyspark中的滑动窗口内执行聚合。特别是，我必须做以下工作：这些任务必须在带有.rangeBetween(-100 days, 0)的滑动窗口中计算。我可以很容易地通过构造一个Pandas来实现这一结果，它将Pandas中的某些列作为输入，将它们转换为Pandas DataFrame，然后计算聚合并返回标量结

浏览 5提问于2021-04-11得票数 2

1回答

我正在尝试编写一个pyspark UDF，它将为我比较两个稀疏向量。我想写的是： from pyspark.sql.functions import udf from pyspark.sql.types import ArrayType, IntegerType, FloatType) 我之前遇到过类似的问题，与dataframe类型不能处理numpy数据类型有关。以前，我可以通过在返回之前将numpy数组强制转换为列表来解决这些问题

浏览 15提问于2019-03-12得票数 3

1回答

如何使用PySpark得到对应于最高tf的词？

、、

我见过类似的帖子，但没有完整的答案，因此在这里张贴。 idf = IDF(inputCol="rawFeatures&quo

浏览 3提问于2018-10-10得票数 3

回答已采纳

1回答

Spark dataframe的udf()的Python包中的函数

、、

对于通过pyspark的Spark dataframe，我们可以使用pyspark.sql.functions.udf来创建一个user defined function (UDF)。我想知道我是否可以在udf()中使用Python包中的任何函数，例如来自numpy的np.random.normal？

浏览 0提问于2015-04-07得票数 8

1回答

将udf应用于多列并使用numpy操作

、、、、

我有一个名为result的dataframe，我想应用一个udf来创建一个新列，如下所示：@udfn

浏览 3提问于2019-09-30得票数 1

回答已采纳

1回答

用腌制的PySpark模型和pandas_udf进行预测

、、、、

我使用随机搜索找到了一个LightGBM模型，该模型使用MLFlow保存到.pkl文件中。我们的目标是将这个被腌制的模型加载到Pyspark中，并在那里进行预测。简单的不腌制就能做到这一点吗？with open(path, 'rb') as f:然后应用pandas_udf： import pyspark.sql.functions as1次失败1次，最近一次失败:阶段18.0

浏览 1提问于2021-06-11得票数 2

回答已采纳

1回答

从UDF返回ArrayType of StructType时出错(并且在多个UDF中使用单个函数)

(编辑)更改的字段名(来自foo，bar，.)因为旧的命名令人困惑from pyspark.sql.types import IntegerType, StructType, StringType from pyspark.sql.functions= 1), not_one_udf(col(

浏览 0提问于2019-08-07得票数 0

回答已采纳

1回答

如何获得星火DataFrame中每行列表中最高值的索引？[PySpark]

、、、

我已经做了LDA主题建模，并将其存储在lda_model中。转换原始输入数据集后，我将检索一个DataFrame。其中一列是topicDistribution，其中这一行的概率属于LDA模型中的每个主题。因此，我希望获得每行列表中最大值的索引。我希望转换df，以便添加一个额外的列，这是每行topicDistribution列表的argmax。

浏览 0提问于2020-01-28得票数 2

回答已采纳

1回答

如何在L2中获取数组类型列的PySpark范数？

、、、

我有一个PySpark数据格式。+---------+|u1 |[1, 2, 3]|+-------+---------+def norm_2_func(features): norm_2_udf= udf(norm_2_func, ArrayType(F

浏览 3提问于2021-01-20得票数 0

回答已采纳

1回答

将PySpark DenseVector转换为数组

、

我正在尝试将DenseVector的pyspark列转换为数组，但总是会出现错误。(Vectors.dense([4.0, 0.0, 0.0, 6.0, 7.0]),)] 我试图定义一个UDF并使用toArray()df = df.withColumn('featuresnet

浏览 1提问于2019-10-21得票数 8

回答已采纳

1回答

如何将numpy.array作为新列添加到pyspark.SQL DataFrame？

、、、、

下面是创建pyspark.sql DataFrame的代码import pandas as pddf = pd.DataFrame(np.array([[1,2,3],[4,5,6],[7,8,9],[10,11,12]]),sqlContext.createDataFrame(df, samplingRatio=0.1) 所以那个

浏览 0提问于2015-08-11得票数 6

1回答

如何在pysparK中计算多列的中位数？

如何从这篇文章中扩展下面的函数来计算'c‘和'd’的中位数：Calculate a grouped median in pyspark # udf for medianimport pyspark.sql.functions as func med = np.median(values_list)return float(med) udf_median

浏览 26提问于2020-09-29得票数 0

回答已采纳

1回答

更改aggregate子句是否会更改pandas_udf - pyspark中的任何内容？

、、、

我是spark的新手，我想知道这是否会改变内存消耗以及如何将任务分配给它的工作人员。请看下面这个最小的例子，让你能够理解我的要求。# import thing for the pandas udfimport pyspark.sql.types as Timport pandas as pd import numpy as

浏览 20提问于2021-11-16得票数 0

回答已采纳

点击加载更多