将Spark数据帧中的数组列扩展为单独的列

文章/答案/技术大牛

发布

1回答

、

如何扩展数组列，使数组中的每个元素都成为数据帧中的一列？数据帧包含数组列，并且数组的大小不固定。这意味着，第一行中的阵列列可以具有n个元素，而第二行中的阵列列可以具有m个元素。我尝试过

浏览 11提问于2019-01-02得票数 1

1回答

从现有arraytype列创建单独的Spark数据帧

、

我有一个spark数据帧作为使用模式我想从数组类型的<

浏览 0提问于2020-08-25得票数 0

1回答

从ORC文件创建外部配置单元表的方法

、、、

用于创建表的查询： create external table fact_scanv_dly_stg (geo_region_cd char(2),op_cmpny_cd string)location 'hdfs:///my/location/scanv_data/'; ORC文件的模式详细信息(摘自DataFrame Spark-SQL)

浏览 28提问于2020-04-30得票数 0

1回答

如何更新Spark中的数据框列

、、、

我有一个数据帧，其中有2个json列。我需要更新基于j1列的j2列。如果j2列的元素为空，则从j1列中选取元素值。j1为JSON字符串，j2为JSON数组。输入数据帧， +---------------------------+---------------------------------------+ |

浏览 22提问于2021-08-04得票数 1

回答已采纳

2回答

使用scala统计spark数据帧中列组合的实例

、、

我在scala中有一个名为df的spark数据帧，它有两列，即a和b，a列包含字母，b列包含数字，如下所示。).distinct a b g 0 f 1a b count g

浏览 2提问于2015-10-28得票数 9

回答已采纳

1回答

如何将numpy数组元素转换为spark* RDD列值*

、、

我准备使用spark dataframe (不是pandas)的内置CSV打印工具。我已经构建了一个IndexedRowMatrix。因此，它中有稀疏数组列。到密集数组的转换是由x.vector.toArray()映射调用执行的(如下所示)。我似乎想不出，如何将密集的numpy数组元素放入Spark DataFrame的单独列中

浏览 0提问于2018-06-12得票数 0

1回答

正在将pyspark数据帧写入文本文件

、

我有一个从sql server中的一个表创建的pyspark数据框架，我对它做了一些转换，现在我要将它转换为动态数据框架，以便能够将其保存为s3存储桶中的文本文件。当我将数据帧写入文本文件时，我将向该文件添加另一个头文件。这是我的动态数据框，将保存为文件： 2021-03-21 |

浏览 0提问于2021-04-23得票数 0

1回答

使用pyspark - Databricks处理来自事件中心的事件

、、、

Spark notebook必须在文档进入Event Hub时读取文档，并与该集合的spark表进行模式匹配(将文档中的字段与spark表列进行匹配)。spark.readStream.format("eventhubs").option(**config).load(). 正如文档中所说，原始消息位于我要转换为字符串的数据帧的“body”列<

浏览 1提问于2019-01-12得票数 0

1回答

将RDD转换为Dataframe Spark

、、、

如何在scala中将具有以下结构的RDD转换为dataframe这里，RDD的每一行都包含一个索引Long和一个向量org.apache.spark.mllib.linalg.Vector。我希望将org.apache.spark.mllib.linalg.Vector的</

浏览 2提问于2017-02-26得票数 2

1回答

Python将大的numpy数组转换为pandas数据帧

、、、、

我收到了一段代码，这些代码只适用于熊猫数据帧作为输入。我目前有一个相当大的numpy数组。我需要将其转换为熊猫数据帧。 Dataframe将是288行(289个计算列名)和1801列。我有一个大小为1801的数组，它将是数据帧中的所有列名。然后我有一个大小为288的数组，它将填充第一列

浏览 5提问于2017-02-10得票数 1

回答已采纳

1回答

使用部分模式的Spark* read json*

、、

我需要使用spark处理一个相当大的json文件。我不需要json中的所有字段，实际上我只想读取其中的一部分(而不是读取所有字段和项目)。我想知道我是否可以使用json连接器，并为它提供一个只包含我感兴趣加载的字段的部分读取模式。

浏览 0提问于2017-07-14得票数 0

1回答

使用更改模式将数据插入到增量表中

、、

如何通过改变数据库中的模式将数据插入到增量表中。在Databricks Scala中，我分解了一个Map列并将其加载到增量表中。我有一个预定义的增量表模式。假设模式有4列A、B、C、D。因此，有一天，我使用下面的代码将包含4列的数据帧加载到增量表中。loadfinaldf.write.fo

浏览 18提问于2021-10-29得票数 0

1回答

以键为列将json字典转换为spark* dataframe*

、、

是否可以通过将键作为具有以下值的列来将字典转换为数据帧？created': '2020-10-29T00:00:00+00:00', 'published': 'YES',} 如果我将其转换为数据帧，如下所示： json_rdd=sc.parallelize([data_dict[

浏览 8提问于2020-11-19得票数 0

回答已采纳

1回答

交叉连接的结果是“设备上没有空间”

、、

我试图交叉连接两个数据帧，并应用少量的转换，最后尝试将结果写入临时S3位置。但我总是以低于No space left on device错误结束。看起来是因为打电话给spill()。你能帮我怎样用正确的配置克服这个错误吗？ Dataframe2记录计

浏览 14提问于2022-08-02得票数 0

1回答

将PySpark数据帧读取到包含VectorUDT列的Pandas中时出现问题

、、、、

我有一个PySpark表，其中的许多列都是VectorUDT类型的。这些列是使用PySpark中的OneHotEstimator函数创建的。我可以将这个表写到拼图文件中，但是当我尝试使用PyArrow将这个表读回到Pandas时，我得到了这个异常： ArrowNotImplementedError: Currently only nesting我不希望将每个VectorUDT列拆分

浏览 18提问于2019-06-10得票数 0

1回答

从多个S3存储桶导入pyspark dataframe，其中有一列指示条目来自哪个存储桶

、、

这些存储桶中的每一个都存储我正在读取到pyspark dataframe中的拼图文件。从每个存储桶生成的pyspark dataframe具有完全相同的模式。我想要做的是迭代这些存储桶，并将所有这些拼图文件存储到一个单独的pyspark dataframe中，该数据框有一个date列，表示dataframe中的每个条目实际来自哪个存储桶。因为<e

浏览 13提问于2019-12-16得票数 0

回答已采纳

2回答

Rdd到Dataframe，其中架构以编程方式基于标头

、、、、

sc.parallelize(Array( "1, cat, dog",我想将RDD转换为dataframe，其中模式是基于RDD的第一行以动态/编程方式创建的。我希望将逻辑应用于多个类似的RDDs，并且不能使用case类以编程方式指定模式，也不能从一开始就使用spark-csv将数据作为dataframe加载。我已经创建了一个扁平

浏览 1提问于2019-11-19得票数 0

1回答

将Spark* Dataframe中的多个列发送到外部API，并将结果存储在单独的列中*

、、、

我有一个spark dataframe，它有40+列。以及数百万行。我想创建另一个列，它从上面的数据帧中接收5列，将这5列中的每一行传递给单独的Api(它接受这5个值并返回一些数据)，并将结果存储在该列中。为简单起见，我使用以下示例:假设我有以下数据帧。我

浏览 12提问于2019-03-12得票数 0

回答已采纳

2回答

Spark dataframe将行中特定列的值替换为空值

、、、、

在尝试用空值替换Spark dataframe的特定列的值时，我遇到了一个问题。我有一个超过50列的数据帧，其中两列是键列。我想创建一个具有相同模式的新数据帧，并且新数据帧应该具有来自键列的值和非键列中的空值。为了避免这种情况，我尝试<em

浏览 18提问于2018-08-29得票数 1

回答已采纳

2回答

当NullType位于StructType内时，将空值写入Spark中的拼图

、、、

我正在将一个集合从MongodB导入到Spark。所有文档都有字段'data‘，该字段又是一个结构，并具有字段'configurationName’(始终为空)。("collection", collectionName).load() 对于结果DataFrame中的data列，我得到以下类型： StructType(StructField(configurationName： AnalysisException: Parquet数据</e

浏览 24提问于2021-08-11得票数 1

点击加载更多