Pyspark中数组元素上的UDF_交叉联接中的配置单元UDF与PySpark UDF_pyspark中的投票分类器UDF - 腾讯云开发者社区

python、pandas、pyspark、pyspark-sql、pyspark-dataframes

我有一个PySpark Dataframe，其中一个列(比如B)是一个数组。|f |+---+-----------------------------+---+目前，我正在使用一个udf来完成这些

浏览 11提问于2019-12-10得票数 0

回答已采纳

1回答

如何索引数组中的每个元素？

arrays、indexing、pyspark、slice

我有一个ArrayType列，其中每个元素都是一个数组，正好包含2个元素。df.show()| u|| [apple, 23]|+------------+result = [ar[0] for ar in array_of_arrays]f

浏览 6提问于2022-04-25得票数 0

回答已采纳

1回答

Pyspark中数组元素上的UDF

apache-spark、pyspark

此处1来自"a"："1” col1[{"a":"1","b":"2", {"cc": "1" }},{"a":"11,"b":"22",{"cc": "11" } }] 请向我推荐pyspark中的udf，

浏览 9提问于2021-08-12得票数 0

回答已采纳

2回答

子字符串PySpark 2.2中数组列的每个元素

python、arrays、pyspark、apache-spark-sql

我想在PySpark 2.2中子串数组列的每个元素。我的df类似于下面的df，它类似于this，尽管我的df中的每个元素在连字符分隔符之前都有相同的长度。，以获得上面new_column格式的输出，但到目前为止还没有成功。有没有办法在PySpark 2.2中做到这一点？import pyspark.sql.functions a

浏览 24提问于2021-09-09得票数 0

回答已采纳

1回答

使用udf和numpy对Pyspark中的列表进行排序

python、numpy、pyspark、pyspark-sql、pyspark-dataframes

我有一个PySpark数据，其中第二列是一个列表列表。下面是我拥有的PySpark数据文件：|A |B ||b |[[95.0], [12.0, 88.0]] |在本例中，我尝试扁平数组(在第二列中)，对数组</e

浏览 6提问于2020-02-08得票数 0

回答已采纳

1回答

如何根据PySpark数据帧的另一列中的值修改一列？F.when边缘情况

python、dataframe、pyspark、apache-spark-sql、pyspark-sql

我想遍历pyspark dataframe中的每一行，并根据另一列的内容更改列的值。我要将其更改为的值也基于要更改的列的当前值。具体地说，我有一列包含DenseVectors，另一列包含我需要的向量的索引。或者，我也可以用DenseVector中两个值中较大的一个替换DenseVector。我主要尝试将F.when()与withColumn结合使用，但F.when()的<

浏览 11提问于2019-04-25得票数 2

回答已采纳

1回答

在pyspark的数组列中使用SequenceMatcher

python、dataframe、pyspark

我有一个数据帧，在pyspark dataframe中有一个数组列‘test’，它有3行或更多行。测试-‘hello’，‘地狱’，‘Help’，‘helper’‘sequence’，‘seque’ 如何使用difflib.sequencematcher遍历行的每个元素，如果两个元素的比率小于90%，则在新列中添加两个元素，说明‘test_ratio，如果它大于，则只保留两个元素中的一个元素<

浏览 11提问于2021-07-18得票数 0

回答已采纳

1回答

UDF转换输出

arrays、casting、pyspark

在Pyspark上，我定义了一个UDF如下：from scipy.spatial.distance import cdist" Find closest point from a list of points. """ udf_closest_point= ud

浏览 1提问于2017-11-22得票数 0

回答已采纳

1回答

ArrayType pandas_udf中的不正确元素

apache-spark、pyspark、apache-spark-sql、user-defined-functions

我正在使用Spark2.3.0，并在我的Pyspark代码中尝试pandas_udf用户定义的函数。根据的说法，目前支持ArrayType。(transform, ArrayType(LongType())) 当我将此函数应用于大型Spark Dataframe的特定数组列时，我注意到熊猫系列c的第一个元素与其他元素的大小不同，而最后一个元素的大

浏览 1提问于2018-07-20得票数 2

4回答

如何在Spark DataFrame中访问VectorUDT列的元素？

apache-spark、dataframe、pyspark、apache-spark-sql、apache-spark-ml

我有一个包含名为features的VectorUDT列的dataframe df。如何获取列的元素，比如第一个元素？我试着做了以下几件事 from pyspark.sql.functions import udfdf.select(first_elem_udf(df.features)).show() 但是我得到了一个n

浏览 122提问于2016-09-18得票数 23

回答已采纳

1回答

如何在PySpark中迭代数组列

pyspark

在PySpark中，我使用了dataframe_a：| str1 | array_of_str ||| orange | 3 | 我想要创建一个数组joined_result类型的新列，它将array_of_str (dataframe_a)中的每个元素</e

浏览 1提问于2020-01-09得票数 1

回答已采纳

0回答

如何在PySpark中创建一个返回字符串数组的自定义函数？

python、apache-spark、pyspark、apache-spark-sql、user-defined-functions

我有一个返回字符串列表的udf。这应该不会太难。我在执行udf时传入了数据类型，因为它返回一个字符串数组：ArrayType(StringType)。import ArrayType, FloatType, StringType label_udf = udf(my_udf, ArrayType))/usr/li

浏览 6提问于2017-12-07得票数 26

回答已采纳

1回答

Python/PySpark空格返回数组而不是单个字符串

python、arrays、pyspark、apache-spark-sql

我正在尝试使用spacy对文本进行标记化，并希望将标记字符串转换为数组。当前正在使用： from pyspark.sql.functions import udfnlp = spacy.load("en_core_web_sm") doc = nlp(text)tokenize = udf(spacy_tokenizer)Cool

浏览 44提问于2020-07-03得票数 1

2回答

PySpark:如何将行转换为向量？

pyspark、pyspark-sql

我使用三列的dataframe，colA、colB和colC|id |colA |colB |colC || 4 | 1 | 6 | 7 |我需要合并colA、colB和colC列，以获得如下所示的新2 | [9, 7, 4] || 4 | [1, 6, 7] | +---+-------------

浏览 2提问于2017-10-17得票数 2

回答已采纳

1回答

当我使用UDF操作一个列时，它有一个问题

pandas、pyspark、user-defined-functions

当我使用UDF处理一列时，我不确定UDF处理是不是从这一列逐个处理元素？如果是的话，我不明白为甚麽会有问题。import pyspark.sql.types as typdef parse_model(v):Parse_model=pandas_udf(p

浏览 14提问于2019-05-20得票数 0

回答已采纳

1回答

PySpark - Spark数组与DataFrame列表是否不同？

python、apache-spark、dataframe、pyspark、apache-spark-sql

如果我有一个包含arrays的Spark，我可以通过DataFrame在这些数组上使用Python List方法吗？下面是一个示例，其中包含一些UDF。我不确定为什么使用最大值可以，但是使用len就不行了。最后，我想用原始数组列中的采样值创建一个新列。这也会得到一个关于期望两个参数的错误，如果你能帮助的话也会得到加分！我有以下Spark DataFrame from pyspark.sql.functions import u

浏览 1提问于2016-10-28得票数 4

回答已采纳

5回答

如何从清单中获得最后一项？

apache-spark、pyspark、apache-spark-sql

为什么列1st_from_end包含null：df = sqlContext.createDataFrame([('a, ).show() 我认为使用[-1]是一种得到列表中最后一项的pythonic

浏览 3提问于2016-11-07得票数 23

回答已采纳

1回答

将int列转换为列表类型pyspark

pyspark

我的DataFrame有一个列num_of_items。这是一个计数字段。现在，我想将它从int类型转换为list类型。from pyspark.sql.types import ArrayType return [x]

浏览 1提问于2019-01-07得票数 3

回答已采纳

1回答

PySpark解析嵌套结构数组

pyspark、pyspark-sql

我想用下面的格式从PySpark SQL数据中解析和获取特定键的值array<struct<key:string,value:struct<int_value:string,string_value:string>>> 函数

浏览 5提问于2019-10-06得票数 0

回答已采纳

6回答

在数组类型列中求和值的最佳方法(Integer())

apache-spark、pyspark、apache-spark-sql

让我们说这是我的数据。name | scoresAnn | [ 12,3,5]想要的输出类似于Ann | [ 12,3,5] | 20我按照……做了一个UDF。('Total', sum_cols(col('scores'))).show() 但是，我

浏览 7提问于2017-12-15得票数 13

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在PySpark中求数组的平均值

如何索引数组中的每个元素？

Pyspark中数组元素上的UDF

子字符串PySpark 2.2中数组列的每个元素

使用udf和numpy对Pyspark中的列表进行排序

如何根据PySpark数据帧的另一列中的值修改一列？F.when边缘情况

在pyspark的数组列中使用SequenceMatcher

UDF转换输出

ArrayType pandas_udf中的不正确元素

如何在Spark DataFrame中访问VectorUDT列的元素？

如何在PySpark中迭代数组列

如何在PySpark中创建一个返回字符串数组的自定义函数？

Python/PySpark空格返回数组而不是单个字符串

PySpark:如何将行转换为向量？

当我使用UDF操作一个列时，它有一个问题

PySpark - Spark数组与DataFrame列表是否不同？

如何从清单中获得最后一项？

将int列转换为列表类型pyspark

PySpark解析嵌套结构数组

在数组类型列中求和值的最佳方法(Integer())

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐