向Scala / Spark中的dataframe添加列表，以便将每个元素添加到单独的行中

文章/答案/技术大牛

发布

1回答

、、

例如，我有一个如下格式的数据帧(实际上是更多的文档)： df.show() +-----+-----+-----+println(ngramShingles) List("the", "he ", "e l") 其中ngramShingles长度等于数据帧列的大小"he "| +-----+--

浏览 71提问于2021-07-29得票数 2

回答已采纳

1回答

Spark在添加随机双列时，在所有行中都有重复值。

、、

我试图在dataframe中添加一个新列。新列包含随机双值。该问题是DataFrame中所有行的新列中的值重复。我使用scala.util.Random类来生成。我试图简单地向dataframe添加一个新列，就像在类似的帖子中建议的那样。我试图将DataFrame更改为Dataset并添加列。

浏览 2提问于2019-04-26得票数 2

回答已采纳

1回答

列表与数据

我发现很难处理列表，例如5个列表，每个列表都有多个元素。有条件地删除元素(对于dataframe，我可以使用子集函数)向现有列表中添加新元素(对于dataframe，我可以使用rbind将新行添加到dataframe中)。我读到从内存效率到重新定义列表和不断

浏览 4提问于2020-02-12得票数 0

回答已采纳

2回答

[Scala][Spark]：转换数据帧中的列，保留其他列，使用withColumn和map [错误:缺少参数类型]

、、、、

, C++]| CA||Robert,,Williams| [CSharp,|CA ||Michael,Rose, |Spark |NJ |

浏览 11提问于2021-10-11得票数 2

1回答

如何将Spark dataframe添加到另一个数据帧的底部？

、、

我可以使用withcolumn向数据帧中添加新列。但是在scala中，我如何向DataFrame添加新行呢？我正在尝试将一个数据帧添加到另一个数据帧的底部。因此，无论是如何在scala中添加行，或者如何将DataFrame添加到另一个行的

浏览 0提问于2015-11-06得票数 23

回答已采纳

2回答

将星火数据转换为可变地图

、、、、

我是新来的火花和斯卡拉。我正在尝试在hive中查询一个表(从表中选择2列)，并将结果转换为Map。我在Scala2.10.6中使用Spark1.6。$.ArrowAssoc(Ljava/lang/Object;)Ljava/lang/Object; 它将这个错误抛到我试图将键值对添加到Map的行中。然而，我正在使用Spark1.6，我不认为这个功能是可用<em

浏览 3提问于2017-10-19得票数 1

回答已采纳

1回答

将RDD转换为Dataframe Spark

、、、

如何在scala中将具有以下结构的RDD转换为dataframe这里，RDD的每一行都包含一个索引Long和一个向量org.apache.spark.mllib.linalg.Vector。我希望将org.apache.spark

浏览 2提问于2017-02-26得票数 2

1回答

将StringType列添加到现有的DataFrame中，然后应用默认值

、、、

Scala2.10在这里使用Spark1.6.2。我有一个与类似的(但不是相同的)问题，然而，被接受的答案不是，它假定了关于火花的某种“预先知识”；因此我无法复制它或理解它。(更重要的是，)，这个问题也仅限于向现有的dataframe中添加一个新列，而我需要添加一个列以及数据中所有现有行的值。因此，我希望向现有的DataFrame添加</

浏览 4提问于2016-10-10得票数 7

回答已采纳

1回答

从以csv分隔的制表符创建数据，其中有些列是json类型，而有些列不是

、、、

我试图从csv中创建一个(使用scala)，其中包含如下条目:这是由5列组成的单个行条目： {“用户名”：“john_doe，”id：“123411”}{“国家”：“IN”，“城市”：“BOM”}所以，有些列是JSON格式的，而有些则不是。我确实编写了一些代码，将JSON列作为字符串处理，并将它们按行顺序直接添加到dataframe中，但剩下的其他列，我不得不手动将它们添加到<e

浏览 0提问于2018-01-29得票数 0

2回答

如何将List[String]值添加到数据帧中的单个列

、

我有一个dataframe，我有一个值列表(可能是列表字符串)，我想在我的dataframe中创建一个新列，并将这些列表值作为列值添加到这个新列。c_df)((df, column) => df.withColumn("newcolumnname" , lit(column))) 但它抛出了StackOverflow异常，我也尝试过迭代字符串值列表并添加到数据帧中，但结果值

浏览 0提问于2019-01-03得票数 0

2回答

在列表列表中为每个列表创建一个df

、、、