Pyspark分解列表使用列表中的索引创建列

文章/答案/技术大牛

发布

1回答

、、

所以我有一个关于pyspark的问题。+---+------------++---+------------++---+------------+ 我想把它分解成多行，并保存关于列表中每个元素在单独列中的位置的信息。，我想把它分解成多行，并保存列表中每个元素在单独列中

浏览 21提问于2021-09-13得票数 1

回答已采纳

2回答

PySpark -拆分所有列中的数组并合并为行

、

在PySpark中有没有一种方法可以同时分解所有列中的数组/列表，并将分解后的数据分别合并/压缩到行中？根据其他因素，列数可以是动态的。

浏览 17提问于2018-02-27得票数 1

回答已采纳

2回答

我们可以拥有一个具有很多属性(比如30个)的模型，同时避免爆炸性的索引陷阱吗？

、

我在想，也许可以让index.yaml只指定某些索引(而不是GAE自动为您指定的所有可能的索引)。如果这不是一个好主意，那么除了将额外的属性作为blob属性中的序列化对象存储之外，还有什么方法可以存储大量属性呢？

浏览 0提问于2012-01-17得票数 0

回答已采纳

1回答

在dataframe列中存储为列表的向量的Seaborn回归线图

、、、、

我有一个dataframe，其中一列是16个元素的向量(存储为列表)。在过去，我发现seaborn的lineplot对于标量列上的回归分析非常有用。向量列让我左右为难。如果我向fmri添加另一个列signal2 fmri['signal2'] = '[1,2,3,4,5,6]' (这仅用于表示目的) 在我拥有的数据集中，数据集的一列中有16个浮点数的列表。我

浏览 21提问于2021-03-18得票数 1

回答已采纳

1回答

从星星之火数据中的列表中提取值，而不转换为熊猫

、、

我有一个火花数据框架，如下所示:每行包含一个列表，我想从中提取一个元素。我非常绿色的火花，所以我把它转换成一个熊猫DataFrame，然后使用地图功能，我提取所需的元素。问题是，数据是巨大的，因此这种方法是不可扩展的。让我花时间的是toPandas()命令。是否有从每一行访问列表中的值的选项？谢谢!

浏览 5提问于2021-12-09得票数 1

回答已采纳

2回答

如何在pyspark中通过列名映射值

、、、、

|#|key2 |value3 |#+-------+----------+ 在HiveQL中，lateral view explode(map( 'key2', key2) tab as key, value 而是如何在pyspark我可以使用createtemptable，但我认为这不是最好的解决方案&#

浏览 20提问于2019-12-26得票数 1

回答已采纳

1回答

Pyspark将数组列分解为带滑动窗口的子列表

、、、

我在PySpark中有一个行，我想在给定一个列中的一个值的情况下将其分成几个较小的行。+------------++---+------------++---+------------+ 我想用一个固定大小的滑动窗口将每一行分解成多个存留物0, 1]| 2|| 2|[2, 3]| 4| | 2|[3, 4]|

浏览 44提问于2021-08-16得票数 1

回答已采纳

3回答

Pyspark:将多个数组列拆分为行

、、、、

其中一些列是单个值，其他列是列表。所有列表列的长度都相同。我希望将每个列表列拆分为单独的行，同时保持任何非列表列的原样。示例DF：from pyspark.sql import SQLContext from pyspark.sql.functions import explodeexplode操作，最终得到的数据

浏览 2提问于2016-12-08得票数 78

回答已采纳

1回答

具有列表数据类型的列: Spark HiveContext

、、

下面的代码聚合并创建一个数据类型为list的列： "column_name_1" expr("collect_list(column_name_2) " ) 因此，似乎可以将“list”作为dataframe中的列数据类型。我想知道我是否可以写一

浏览 2提问于2016-07-15得票数 0

2回答

从PySpark DataFrame列中删除元素

我知道PySpark DataFrames是不可变的，所以我想创建一个新列，该列是根据应用到PySpark DataFrame的现有列的转换生成的。我的数据太大了，无法使用collect()。该列是唯一int列表(在给定列表中不重复int)，例如：[1,2][2,3] 上面是一个玩具

浏览 9提问于2017-01-12得票数 1

回答已采纳

1回答

如何根据日期从单行数据帧创建包含2行的数据帧

、

我有一个包含一行和两个日期字段的dataframe，分别为createddate和enddate 如何根据这两个日期字段获得包含2行的新数据帧我已经有了一个数据帧，它看起来像 +----------enddateabcdsdfdlsjdlfkdjfld 2017-12-01 null 基本上，我的第一行应该来自createddate列，第二行应该来自结束日期的下一个日期。我还想填充enddat

浏览 7提问于2019-10-18得票数 0

1回答

categoricalFeaturesInfo += (1 -> 7) java.lang.IllegalArgumentException:需求失败: DecisionTree要求maxBins (= 3)至少与每个分类特性中的值数目一样大考虑删除具有大量值的此功能和其他分类功能，或添加更多的培训示例。31，我尝试过maxBins = 32 (根据这些帖子中的答案)。就像试用n错误一样，我尝试了所有的值集，如2、3、10、15、50、10000，请参见相同的错

浏览 1提问于2017-11-20得票数 0

1回答

为嵌套的Pyspark对象创建模式

、、

我正在尝试创建一些样本数据框来对一些函数进行测试，我经常获得带有嵌套对象(数组或更多的JSON对象)的JSON对象，我需要测试不同类型的对象，即Struct和Array，并根据它们的类型将它们传递给正确的函数以创建表格数据帧这些对象来自API，一些是内部的，一些是外部的，所以我受应用程序开发人员的摆布。让我们假设我想创建一个表来进行测试，如下所示： +----+------+------------

浏览 15提问于2021-02-23得票数 0

回答已采纳

2回答

从pyspark: ValueError中的列表中创建数据

、、、

我正在尝试将一个列表转换成一个数据列表，这样我就可以将它作为一个列加入到一个更大的dataframe中。列表中的数据是随机生成的名称，如下所示：from pyspark.sql.functions import *from pyspark.sql.types imp

浏览 2提问于2021-11-24得票数 1

回答已采纳

2回答

如何按索引重命名PySpark数据栏？(处理重复的列名)

、、、

我有一个问题，我需要动态更新星火数据中的列。def dup_cols(df): for x, xcol in enumerate(df.columnsdf = df.withColumnsR

浏览 0提问于2018-12-13得票数 5

回答已采纳

1回答

从火花数据中选择或删除重复列

、、、

给定一个星星之火数据，有一个重复的列名(例如。( A)对于不能修改上游或源的，如何选择、删除或重命名其中的一个列，以便检索列值？df.select('A')向我显示了一个不明确的列错误，filter、drop和withColumnRenamed也是如此。如何选择其中一列？

浏览 0提问于2018-09-06得票数 2

1回答

动态汇总和重命名PySpark中的聚合列

、、、、

我有一个PySpark数据帧(Df)，其中包含50+列，其中包含一些动态列，这些列可能存在也可能不存在，但它们存在于一个单独的列表(Reqd_col)中。我想对列表(Reqd_col)中存在的PySpark data frame(df)中的那些列进行汇总(按固定列‘region’分组)和汇总总和或计数，汇总列<

浏览 24提问于2021-09-08得票数 0

1回答

Python to Pyspark函数UDF如何输出列表列表

、、、、

我在Python语言中有一个函数(有许多不同的函数，但情况相同)，我正在将它转换为PySpark，然而，这个函数有一个不同整数类型的列表作为输入，有一个输出是一个列表，其中包含n个整数类型的列表，举个例子pyspark.sql.functions import udffrom pyspark.sql import functions as Fmy_functi

浏览 55提问于2021-09-19得票数 0

1回答