使用PySpark对ArrayType列中的行进行分组

，可以通过使用explode函数将ArrayType列中的元素展开为多行数据，然后再根据需要的分组条件进行分组操作。

具体步骤如下：

导入必要的模块和函数：

from pyspark.sql import SparkSession
from pyspark.sql.functions import explode

创建SparkSession对象：

spark = SparkSession.builder.getOrCreate()

创建示例数据集：

data = [("A", ["apple", "banana", "orange"]),
        ("B", ["grape", "kiwi"]),
        ("C", ["melon", "pineapple", "watermelon"]),
        ("D", ["strawberry"])]
df = spark.createDataFrame(data, ["id", "fruits"])

使用explode函数将ArrayType列展开为多行数据：

df_exploded = df.select("id", explode("fruits").alias("fruit"))

根据需要的分组条件进行分组操作：

grouped_df = df_exploded.groupBy("fruit").agg({"id": "collect_list"})

打印分组结果：

grouped_df.show()

以上代码将ArrayType列中的行进行了分组操作，输出了每个水果对应的id列表。

注意：在实际应用中，可以根据具体需求进行进一步的数据处理和分析。

推荐的腾讯云相关产品和产品介绍链接地址：

腾讯云PySpark产品介绍：https://cloud.tencent.com/product/spark
腾讯云数据仓库CDW产品介绍：https://cloud.tencent.com/product/cdw
腾讯云数据湖DLake产品介绍：https://cloud.tencent.com/product/dlake
腾讯云数据集成DTS产品介绍：https://cloud.tencent.com/product/dts
腾讯云数据传输服务DTS产品介绍：https://cloud.tencent.com/product/dts

如何在PySpark中过滤数组列中的值？

、

我在Pyspark上有一篇ArrayType专栏。我只想为每一行过滤Array中的值(我不想过滤出实际的行！)而不使用UDF。例如，给定包含ArrayType的A列的数据集： | A | ______________ |[-2, 1, 7] | |[1] | |[-4, -1, -3]| 我只希望输出为正值： | A | ______________ |[1, 7] | |[1] | |[] |

浏览 1提问于2020-11-12得票数 1

4回答

我有潘达的数据。我尝试将包含字符串值的两个列连接到一个列表中，然后使用zip将列表中的每个元素都用'_‘连接起来。我的数据集如下： df['column_1']: 'abc, def, ghi' df['column_2']: '1.0, 2.0, 3.0' 我想将这两列连接到第三列中，如下所示，我的每一行数据都是这样的。 df['column_3']: [abc_1.0, def_2.0, ghi_3.0] 我已经在python中成功地使用了下面的代码，但是dataframe相当大，运行整个datafra

浏览 2提问于2019-01-21得票数 9

回答已采纳

2回答

PySpark:如何在列中或列中分组

、

我想在PySpark中进行分组，但是这个值可以出现在多个列中，所以如果它出现在所选列中的任何一列中，那么它将被分组。例如，如果我将这个表放在Pyspark中：我想总结一下每个身份证的访问和投资，结果是：请注意，ID1是前三列中有ID1的行0、1、3的总和，ID1访问= 500 + 100 + 200 = 800。ID2是行1、2等的总和。为了简单起见，我的例子是一个简单的dataframe，但在实际中是一个大得多的df，有很多行和变量，还有其他操作，而不仅仅是"sum“。这对熊猫来说是不可能的，因为它太大了。应该在PySpark OBS2:我用熊猫打印了表格

浏览 4提问于2019-09-20得票数 1

回答已采纳

1回答

用map迭代PySpark中的数组列

、、

浏览 1提问于2019-06-20得票数 5

回答已采纳

1回答

Python to Pyspark函数UDF如何输出列表列表

、、、、

我在Python语言中有一个函数(有许多不同的函数，但情况相同)，我正在将它转换为PySpark，然而，这个函数有一个不同整数类型的列表作为输入，有一个输出是一个列表，其中包含n个整数类型的列表，举个例子： #I know some libraries are not necessary righ now import pyspark from pyspark import SQLContext from pyspark.sql.types import StructType, StructField, IntegerType, FloatType, StringType, ArrayTyp

浏览 55提问于2021-09-19得票数 0

2回答

如何筛选火花放电中的数组列值

、、

我有一个包含许多列的pyspark Dataframe，其中列作为数组类型和字符串列： numbers <Array> | name<String> ------------------------------|---------------- ["160001","160021"] | A ------------------------------|---------------- ["160001","1600", "42345&#

浏览 3提问于2019-11-08得票数 1

回答已采纳

1回答

如何在PySpark中对Spark大数据框中的每个行子集执行映射操作

、、、

我使用的是PySpark，我想做的事情如下：一个大的Spark数据帧df包括所有记录。我想在这个df中除以'id‘列的记录的每个子集上进行并行计算。我目前能想到的方式如下：(我将用一个简单的例子来说明) dicts = [ {'id': 1, 'name': 'a', 'score': 100}, {'id': 1, 'name': 'b', 'score': 150}, {'id': 2, 'n

浏览 2提问于2017-10-30得票数 1

2回答

是否使用Window()计算PySpark中数组的滚动和？

、、、

我想计算给定unix时间戳的ArrayType列的滚动和，并以2秒为增量对其进行分组。输入/输出示例如下。我认为Window()函数会起作用，我对PySpark非常陌生，完全迷失了方向。任何意见都是非常感谢的！输入： timestamp vars 2 [1,2,1,2] 2 [1,2,1,2] 3 [1,1,1,2] 4 [1,3,4,2] 5 [1,1,1,3] 6 [1,2,3,5] 9 [1,2,3,5] 预期

浏览 11提问于2020-02-26得票数 2

回答已采纳

2回答

为什么吡火花udf功能只运行在一个核心上？

、、

假设我有一个只有一个列text的数据文件。我想要编写一个udf函数，该函数从这个dataframe的每一行提取多个文本。我的职能如下： @F.udf(returnType=T.ArrayType(T.StringType())) def generate_text_spans(text): spans = [] # performs some processing on text and fills spans variable return spans df = df.withColumn('spans', generate_text_spans(F

浏览 5提问于2022-10-17得票数 0

1回答

PYSPARK:-在不丢失null值的情况下分解dataframe中的数组：“DataFrame”对象没有属性“_get_object_id”

、、、

调用下面的对象时出错是在不丢失空值的情况下分解dataframe中的数组，但在调用列时我得到错误，说对象没有属性‘_ code.This _ object _id’。需要帮助，在其他方式调用列，可以工作。 from pyspark.sql import SparkSession from pyspark.sql import DataFrame from pyspark.sql import Row from pyspark.sql.types import ArrayType from pyspark.sql.functions import * from functools import

浏览 2提问于2018-07-05得票数 2

2回答

ArrayType(StringType())不能接受对象‘.’在<class 'str'>类型中

、、、、

我正试图把一只大熊猫的数据栏(6151291行×3列)转换成一个星条框框。这是我的密码： import numpy as np from pyspark.sql.types import * df_schema = StructType([StructField("author", ArrayType(StringType()), True)\ ,StructField("title", StringType(), True)\ ,StructField("y

浏览 7提问于2022-10-18得票数 1

回答已采纳

3回答

当我想检查Dataframe是否为空时，‘'list’对象没有属性'isEmpty‘

、、、

我创建了一个dataframe d2，并希望应用一个函数来查看它是否为空。我得到了错误：'list‘对象没有属性'isEmpty' import pyspark from pyspark.sql import SparkSession from pyspark.sql.types import DecimalType, FloatType, StructType,StructField, StringType, IntegerType from pyspark.sql.types import ArrayType, DoubleType, BooleanType fr

浏览 3提问于2021-08-23得票数 1

1回答

从字符串列中提取每个不同的单词，并将它们放入新的dataframe中。

、、、

我正试图在中找到列中的所有字符串。输入df： id val 1 "book bike car" 15 "car TV bike" 我需要输出df，比如：( word_index值是自动增量索引，"val_new“中的值顺序是随机的)。 val_new word_index TV 1 car 2 bike 3 book 4 我的代码： import pyspark.sql.functions as F from pyspark.sql.types import ArrayType, StringT

浏览 6提问于2020-11-09得票数 1

回答已采纳

1回答

创建由两列组成的元组- PySpark

、、、

我的问题是基于类似的问题，这里的，不同的是，我有一个值列表，而不是每列一个值。例如： from pyspark.sql import Row df = sqlContext.createDataFrame([Row(v1=[u'2.0', u'1.0', u'9.0'], v2=[u'9.0', u'7.0', u'2.0']),Row(v1=[u'4.0', u'8.0', u'9.0'], v2=[u'1.0', u'1.0

浏览 6提问于2017-08-29得票数 1

回答已采纳

1回答

解析存储为string的pyspark行

、

我有一个数据集，该数据集包含一些嵌套的吡火花行，这些行存储为字符串。当我将它们读入pyspark中时，这些列被读取为如下所示的字符串： 'Row(name='Bob', updated='Sat Nov 21 12:57:54', isProgrammer=True)' 我的目标是将其中一些子字段解析为单独的列，但我在读取它们时遇到了困难。。 df.select(col('user')['name'].alias('name')) 是我正在尝试的语法，但它似乎不起作用。它给了我这个错误： Can&#

浏览 3提问于2022-06-03得票数 0

1回答

替换嵌套结构中的列值火花数据

、、、

我在Databricks中得到了VCF数据格式。我想根据字典重新命名这些科目。我有字典，在那里我得到了新的名字。然后，我得到了函数来获得新的值，并且返回值到目前为止是工作的： import pyspark.sql.functions as F keys= {'old_name': 'new_name'} mapping_func = lambda x: keys.get(x) df.withColumn('foo', udf(mapping_func, F.StringType())('geno.sampleId')) 生成

浏览 1提问于2022-04-11得票数 0

回答已采纳

1回答

使用udf和numpy对Pyspark中的列表进行排序

、、、、

我有一个PySpark数据，其中第二列是一个列表列表。下面是我拥有的PySpark数据文件： +---+------------------------------+ |A |B | +---+------------------------------+ |a |[[95.0], [25.0, 25.0], [40.0]]| |a |[[95.0], [20.0, 80.0]] | |a |[[95.0], [25.0, 75.0]] | |b |[[95.0], [25.0, 75.0]]

浏览 6提问于2020-02-08得票数 0

回答已采纳

1回答

解压缩元组列表- PySpark

我在这里问了相反的问题，。我现在要做的是将一个位于dataframe列中的元组列表解压缩到每一行两个不同的列表中。因此，基于下面的数据，v_tuple列返回到v1和v2。 +---------------+---------------+--------------------+ | v1| v2| v_tuple| +---------------+---------------+--------------------+ |[2.0, 1.0, 9.0]|[9.0, 7.0, 2.0]|[(2.0,9.0), (1.0

浏览 4提问于2017-08-30得票数 2

回答已采纳

1回答

在spark数据帧中插入记录

、

我在pyspark有一个数据帧。这是它看起来的样子， +---------+---------+ |timestamp| price | +---------+---------+ |670098928| 50 | |670098930| 53 | |670098934| 55 | +---------+---------+ 我想用之前的状态来填补时间戳中的空白，这样我就可以得到一个完美的集合来计算时间加权平均值。下面是输出应该是什么样子- +---------+---------+ |timestamp| price | +---------+-----

浏览 4提问于2016-08-18得票数 2

1回答

PySpark UDF -生成的DF无法显示“值错误："mycolumn”名称不在列表中“

、、

浏览 0提问于2019-08-22得票数 0

1回答

从PySpark数据字典列表中提取密钥

、

我有一个PySpark dataframe，它有一个列，前两行如下所示。一个字典的列表。然而，PySpark似乎将它们解释为字符串。 [{'id': 213, 'label': 'White', 'option_id': 736, 'option_display_name': 'White Color'}] [{'id': 23123, 'label': 'Cloud', 'option_id': 736, 'option_di

浏览 5提问于2022-05-10得票数 0

1回答

Parquet如何处理SparseVector列？

、、

我对PySpark非常陌生。我正在构建一个tfidf，并希望将它作为中间结果存储在磁盘中。现在，以国防军的得分给了我一个SparseVector表示法。然而，当试图将它保存为Parquet时，我得到了OOM。我不确定它是否在内部将SparseVector转换为密集数据，因为在这种情况下，它将导致大约25k列，而根据线程，以列格式保存如此大的数据会导致OOM。那么，你知道情况会是什么吗？我的执行器内存为8g，并对2g CSV文件进行操作。我应该尝试增加内存还是用CSV而不是Parquet来保存它？任何帮助都是非常感谢的。提前谢谢。更新1 正如所指出的，星火执行懒惰的评估，错误可能是由于上

浏览 0提问于2019-01-16得票数 2

2回答

在创建DataFrame时，Pyspark列值将自动移动。

、、、

我正在尝试使用下面的嵌套模式手动创建一个pyspark dataframe - schema = StructType([ StructField('fields', ArrayType(StructType([ StructField('source', StringType()), StructField('sourceids', ArrayType(IntegerType()))]))), StructField('first_name',StringType()), S

浏览 2提问于2020-04-23得票数 0

回答已采纳

2回答

pivot dataframe将json列转向新列。

、、、、

我希望通过python3从中的json列中提取数据。我的数据： year month p_name json_col 2010 05 rchsc [{"attri_name": "in_market", "value": "yes"}, {"attri_name": "weight", "value": "12.56"}, {"attri_name" : "color", "value" : "

浏览 6提问于2020-07-27得票数 3

回答已采纳

1回答

将自定义函数应用于数据type数组类型的列

、、、

我有一个名为‘count’的列的dataframe，我想将一个自定义函数"do_something“应用于列的每个元素，即每个数组。我不想修改dataframe，我只想做一个单独的操作与列计数。列的所有数组都具有相同的大小。 +----------------------+---------------------------------------+ |id| counts| +----------------------+---------------------------------------+ |1| [8.0, 2.0, 3.0

浏览 2提问于2017-09-22得票数 1

回答已采纳

2回答

在StringType中将ArrayType转换为PySpark

、、、、

我正试图在我的数据集上运行PySpark中的PySpark算法。 from pyspark.ml.fpm import FPGrowth fpGrowth = FPGrowth(itemsCol="name", minSupport=0.5,minConfidence=0.6) model = fpGrowth.fit(df) 我得到了以下错误： An error occurred while calling o2139.fit. : java.lang.IllegalArgumentException: requirement failed: The input col

浏览 0提问于2018-04-05得票数 2

回答已采纳

1回答

使用Pyspark从数组中读取JSON项？

、、、

我在从databricks中的Cosmos DB读取项目时遇到了一些问题，它似乎将JSON读取为字符串值，并将数据从JSON中读取到列中。我有一个名为ProductRanges的列，其中一行包含以下值： [ { "name": "Red", "min": 0, "max": 99, "value": "Order More" }, { "name": "Amber"

浏览 29提问于2019-05-13得票数 4

回答已采纳

1回答

pandas_udf给出了与pyarrow相关的错误

、、、、

我有一个数据帧，我想要在其中使用pysaprk中的polyline库获取给定地理位置的lat_long +-----------------+--------------------+----------+ | vid| geolocations| trip_date| +-----------------+--------------------+----------+ |58AC21B17LU006754|eurnE||yqU???????...|2020-02-22| |2T3EWRFV0

浏览 30提问于2020-08-31得票数 0

回答已采纳

1回答

匹配字符串中未闭合的字符，用于pyspark中的拆分操作

我在pyspark数据框列中有以下信息： [["A"],["B"]] 和 ["A","B"] 我想拆分第一个实例中值出现的列，并保留第二个实例中的值不变。但是，在尝试通过split操作执行此操作时： df = df.selectExpr("split(col, '],[') col") 我收到以下错误： 'Unclosed character class near index...' 我还尝试用对应的ascii替换实际的字符： df = df.selectExpr("spl

浏览 0提问于2021-10-22得票数 0

3回答

Scala API中函数"typedLit“的PySpark等效项

、、、

我们在中有一个函数typedLit来添加数组或映射作为列值。 import org.apache.spark.sql.functions.typedLit val df1 = Seq((1, 0), (2, 3)).toDF("a", "b") df1.withColumn("seq", typedLit(Seq(1,2,3))) .show(truncate=false) +---+---+---------+ |a |b |seq | +---+---+---------+ |1 |0 |[1, 2, 3]| |

浏览 1提问于2020-05-31得票数 7

1回答

将int列转换为列表类型pyspark

我的DataFrame有一个列num_of_items。这是一个计数字段。现在，我想将它从int类型转换为list类型。我尝试使用array(col)，甚至创建一个函数，以int值作为输入返回列表。不起作用 from pyspark.sql.types import ArrayType from array import array def to_array(x): return [x] df=df.withColumn("num_of_items", monotonically_increasing_id()) df col_1 | num_of_item

浏览 1提问于2019-01-07得票数 3

回答已采纳

1回答

如何在PySpark中迭代数组列

浏览 1提问于2020-01-09得票数 1

回答已采纳

1回答

如何在PySpark中将列从字符串转换为数组

、、、、

我从继承的dataset转换了一个dataframe，它看起来如下所示： data = [("[]","2000","M",False), ("[{'username':'aabb','points':'200','active':'true'}, {'username':'bbaa22','points':'0','active':'

浏览 1提问于2022-02-09得票数 1

回答已采纳

1回答

在pyspark的数组列中使用SequenceMatcher

、、

我有一个数据帧，在pyspark dataframe中有一个数组列‘test’，它有3行或更多行。测试-‘hello’，‘地狱’，‘Help’，‘helper’‘sequence’，‘seque’ 如何使用difflib.sequencematcher遍历行的每个元素，如果两个元素的比率小于90%，则在新列中添加两个元素，说明‘test_ratio，如果它大于，则只保留两个元素中的一个元素？示例:从第一行开始比较前两个元素‘hello’和‘hell’，如果ratio大于90%，则将hello添加到test_ratio中，如果ratio小于90%，则将hello与help进行比较，如果ra

浏览 11提问于2021-07-18得票数 0

回答已采纳

1回答

ClassDict (用于pyspark.mllib.linalg.DenseVector)的构造所期望的零参数

、、、、

我知道错误了构造ClassDict的预期零参数(用于pyspark.mllib.linalg.DenseVector) 通过尝试这样做：我有一个函数，我将其转换为udf，用于从dataframe转换列的值。如下所示： def func(vector): #does something return Vector.dense(vector) udfunc = udf(func, ArrayType(FloatType())) new_df = df.withColumn("vector",func(df.vector)) new_df.show()

浏览 0提问于2016-07-07得票数 7

回答已采纳

2回答

用火花酸洗错误-提交"_pickle.PicklingError:来自newobj args的args[0]有错误的类“

、、、、

当试图通过Submit或Zeppelin运行一些代码时，我得到了以下错误："_pickle.PicklingError:来自__ newobj __ args的args有错误的类“ 我看过有同样问题的帖子，对这个问题没有太多的洞察力。跟踪(包括下面的内容)指向我使用的其中一个udfs： udf_stop_words = udf(stop_words, ArrayType(StringType())) def stop_words(words): return list(word.lower() for word in words if word.lower() not in

浏览 3提问于2017-10-22得票数 1

2回答

在PySpark Dataframe中的列中合并重复行

、

我在PySpark数据框架中有重复的行，我想根据一列中重复的条目将所有行和sum合并成一行。电流表 Deal_ID Title Customer In_Progress Deal_Total 30 Deal 1 Client A 350 900 30 Deal 1 Client A 360 850 50 Deal 2 Client B 30 50 30 Deal 1 Client A 125 200 30 Deal 1 Client

浏览 5提问于2022-11-04得票数 0

回答已采纳

1回答

熊猫将函数替代应用于pyspark (希望将整型数据类型列转换为列表数据类型)

、、

要将整数数据类型列转换为列表数据类型给定DataFrame a b 0 9 2 1 9 3 想要转换为 a b 0 9 [2] 1 9 [3] 熊猫溶液 import pandas as pd df = pd.DataFrame({"a":[1,2],"b":[3,4]}) df["b"] = df["b"].apply(lambda row: [row]) 我怎样才能在火花放电中实现同样的目标？我尝试了一种天真的方式 from pyspark.sql.types import Intege

浏览 5提问于2021-12-02得票数 0

回答已采纳

1回答

将列表列转换为嵌套结构列

、、、、

我正在尝试将一组丑陋的文本字符串转换为具有代表性的PySpark数据格式。最后一步是将包含字符串列表的列转换为包含嵌套行结构的列。对于列表中的每个字符串，我使用python字典理解将其规范化为相同的字段。当我试图通过列上的udf来转换它时，它会失败。我的列“记录”包含这样的字符串列表. ['field1, field2, field3, field4', 'field1, field2, field3, field4'..] 幸运的是，字符串结构是定义良好的，包含字符串和ints，所以我有一个Python字典理解，它只是分割和分配名称。 def extract

浏览 2提问于2018-10-20得票数 1

回答已采纳

1回答

动态构建用于导出到csv的大型数据帧(spark或pandas)的方法

、、、、

我有一个csv，我使用spark.read导入到databricks中。这个大文件包含每日级别的记录/事务。我将数据帧减少到5列，并保持500,000行不变。我正在尝试构建这个源文件的汇总表，它在一个月级别(聚合)表示这些记录/事务。该脚本有一个filter/groupby/sum命令，该命令返回一行，将数据汇总为一个月的计数。查询返回的行将如下所示： +---------+---------+-------+-------------+ | Country|StockCode|YYYY-MM|sum(Quantity)| +---------+---------+-------+---

浏览 12提问于2020-07-12得票数 0

1回答

使用pyspark在dataframe的模式中进行搜索

、、、

浏览 11提问于2019-10-11得票数 1

回答已采纳

2回答

创建包含每个结构的第一个元素的数组，该数组位于Spark dataframe字段中

、、

如何从结构数组到每个结构的第一个元素的数组，在PySpark数据each中实现？一个例子将使这一点更加清楚。假设我的数据文件定义如下： scoresheet = spark.createDataFrame([("Alice", [("Math",100),("English",80)]),("Bob", [("Math", 90)]),("Charlie", [])],["name","scores"]) 上面定义的模式和数据格式如下所示： root |-- na

浏览 9提问于2016-12-20得票数 4

回答已采纳

2回答

一个数组列与另一个(布尔)数组列的子集

、、、

我有一个这样的数据帧(在Pyspark 2.3.1中)： from pyspark.sql import Row my_data = spark.createDataFrame([ Row(a=[9, 3, 4], b=['a', 'b', 'c'], mask=[True, False, False]), Row(a=[7, 2, 6, 4], b=['w', 'x', 'y', 'z'], mask=[True, False, True, False]) ]) my_

浏览 23提问于2019-04-23得票数 3

回答已采纳

1回答

是否有一种方法可以获得pyspark.sql.column.Column的dtype而不首先在pyspark.sql.DataFrame上调用它？

、、

这可能是一个小众问题，但假设您有一个定义如下的udf： import pyspark.sql.functions as sf import pyspark.sql.types as st @sf.udf(returnType=st.ArrayType(st.StringType())) def some_function(text: str) -> List[str]: return text.split(' ') 这将返回一个udf，我需要知道它是returnType。是否有一种方法可以获得返回类型： Without调用pyspark.sql.DataFrame

浏览 2提问于2021-11-20得票数 0

回答已采纳

1回答

在Pyspark中查找相关的文档名称

、、

我有一个包含两列(id，name)的数据框。名称列具有相关的名称。例如，术语，相关术语，相关行，行。我想在不同的行中找到相似的名字。我已经尝试了余弦相似度，但无法实现这一点。我已经使用pyspark计算了TF-IDF。寻找使用pyspark在不同行中获取相关名称的方法。

浏览 11提问于2018-02-23得票数 0

1回答

Pyspark将StructType转换为ArrayType<StructType>

、、、、

我有一个数据帧df1，它有一个列col1，它的结构如下： StructField(recipientResource,ArrayType(StructType(List(StructField(resourceId,StringType,true),StructField(type,StringType,true))),true),true) 和另一个带有col1的dataframe df2，它具有以下结构： StructField(recipientResource,StructType(List(StructField(resourceId,StringType,true),StructF

浏览 0提问于2018-05-11得票数 0

2回答

在PySpark dataframe中的组中的列上应用函数

、、

我有一个像这样的PySpark数据， +----------+--------+---------+ |id_ | p | a | +----------+--------+---------+ | 1 | 4 | 12 | | 1 | 3 | 14 | | 1 | -7 | 16 | | 1 | 5 | 11 | | 1 | -20 | 90 | | 1 | 5 | 1

浏览 1提问于2019-08-22得票数 0

回答已采纳

1回答

从日期到字符串的Pyspark类型转换问题

、、、

我使用的是pyspark 2.1。下面是我的数据框内容 expecteddays,date 139,30.JUl.2017 134,01.NOV.2018 我的输出应该如下所示 138,30.JUL.2017,<30/SEP/2018,4/FEB/2019> 下面的模块dateRangeBetween和get_date负责最后一列的填充下面是我的代码 from datetime import datetime from datetime import timedelta import pandas as pd from datetime import timedelta f

浏览 2提问于2017-07-26得票数 0

3回答

Pyspark:将多个数组列拆分为行

、、、、

我有一个数据帧，它有一行和几列。其中一些列是单个值，其他列是列表。所有列表列的长度都相同。我希望将每个列表列拆分为单独的行，同时保持任何非列表列的原样。示例DF： from pyspark import Row from pyspark.sql import SQLContext from pyspark.sql.functions import explode sqlc = SQLContext(sc) df = sqlc.createDataFrame([Row(a=1, b=[1,2,3],c=[7,8,9], d='foo')]) # +---+---------

浏览 2提问于2016-12-08得票数 78

回答已采纳

1回答

得到火花放电阵列型列的最后n个元素

、

我试图获取每个名为Foo的数组列的最后n个元素，并在其中生成一个名为last_n_items_of_Foo的单独列。Foo列数组具有可变长度。我看过这篇文章，但是它有一个不能用来访问最后元素的方法。 import pandas as pd from pyspark.sql.functions import udf, size from pyspark.sql.types import StringType from pyspark.sql.functions import col df = pd.DataFrame([[[1,1,2,3],1,0],[[1,1,2,7,8,9],0,0],

浏览 0提问于2019-08-28得票数 1

回答已采纳