Scala dataframe是否根据其他列添加新列？

文章/答案/技术大牛

发布

2回答

、

6 26 0 7 2 14 1 14 3 21 9 1 9 我希望新列任何人都知道怎么做，因为在那之后，我只需要在新的G列中显示最大的20个数字如果之前有人问过这个问题，我很抱歉，并提前表示感谢。

浏览 5提问于2020-01-16得票数 0

回答已采纳

1回答

Spark DataFrame:根据其他列添加新列

、

我想添加一个新列new_col，如果列a的值在yes_list中，则在new_col中该值为1，否则为0 from pyspark import SparkContext sc = SparkContext.getOrCreate

浏览 11提问于2020-07-09得票数 0

回答已采纳

2回答

根据其他列值向dataframe添加新列

、、

我有一个数据，其中有两列: DNI，电子邮件。：. name2 lastname2 8658685我希望根据邮件的不同将num列添加到第一个dataframe中，如果电子邮件列不存在名称和姓氏组合，我希望添加"0“值，它如下所示：. 1N

浏览 2提问于2020-07-26得票数 1

回答已采纳

2回答

如何在不从DataFrame转换和访问数据集的情况下向Dataset添加列？

、

我知道使用.withColumn()向星火.withColumn()添加新列的方法，以及返回DataFrame的UDF。我还知道，我们可以将结果DataFrame转换为DataSet。是否有一种“面向对象的方式”来访问列(而不是将列名作为字符串传递)，就像我们以前使用RDD那样，用于追加一个新列。如何在地图、过滤器等正常操作中访问新列？res5: org.apache.spark.sql.<e

浏览 1提问于2016-11-15得票数 11

回答已采纳

2回答

RDD对混合DataFrame API的UDF性能的影响

、、、、

(Scala特有的问题。)RDD和UDF相似，因为它们都不能从催化剂和钨的优化中获益。是否还有其他开销，如果存在，这两种方法之间是否有区别？为了给出一个具体的例子，假设我有一个DataFrame，它包含一列具有自定义格式的文本数据(不适于regexp匹配)。

浏览 2提问于2016-08-09得票数 9

2回答

SparkR：“无法解析列名...”向Spark数据框添加新列时

我正在尝试将一些计算列添加到SparkR数据框中，如下所示：(unix_timestampOut.minus.In.mins", 第一个命令执行ok，head(Orders)显示新列(DataFrame.<e

浏览 2提问于2015-12-29得票数 0

1回答

Spark在添加随机双列时，在所有行中都有重复值。

、、

我试图在dataframe中添加一个新列。新列包含随机双值。该问题是DataFrame中所有行的新列中的值重复。我使用scala.util.Random类来生成。我试图简单地向dataframe添加一个新列，就像在类似的帖子中建议的那样。我试图将DataFrame更改为Dataset并添加列。

浏览 2提问于2019-04-26得票数 2

回答已采纳

2回答

可以从Scala调用python函数吗？

、、、、

我正在创建一个火花作业，它要求使用用python编写的函数将列添加到dataframe中。其余的处理是使用Scala完成的。我已经找到了如何从pyspark调用Java/Scala函数的示例：我发现用另一种方式发送数据的唯一例子是使用pipe。我是否可以将整个dataframe发送到python函数，让函数操作数据并添加其他列，然后将结果数据返回给调用的Scala函数

浏览 3提问于2017-09-15得票数 5

1回答

将StringType列添加到现有的DataFrame中，然后应用默认值

、、、

(更重要的是，)，这个问题也仅限于向现有的dataframe中添加一个新列，而我需要添加一个列以及数据中所有现有行的值。因此，我希望向现有的DataFrame添加一列，然后将该新列的初始(“默认值”)值应用到所有行。y| z||true|not true| red|这意味着，我希望向StringType类型的

浏览 4提问于2016-10-10得票数 7

回答已采纳

2回答

用单个ID列减去DataFrames -重复列的行为不同

、

我正在尝试将两个DataFrames与相同的模式(在Spark1.6.0中，使用Scala)进行比较，以确定在新表中添加了哪些行(即在旧表中不存在)。我需要通过ID来完成这个任务(即检查单个列，而不是整行，以查看什么是新的)。有些行在不同版本之间可能发生了更改，因为它们在两个版本中都具有相同的id，但其他列已经更改--我不希望这些列出现在输出中，因此不能简单地减去这两个版本。根据各种建议，我在所选的ID列上做了一个左外部联接，然后从联接的右侧选择<em

浏览 6提问于2017-07-14得票数 1

回答已采纳

1回答

根据其他列是否有数据添加新列

、、

我有一只熊猫的资料，如下所示：1 2 3na na 5 现在我想添加另一列a，它的值依赖于x，y和z，如果x是可用的，那么a将是"yes“。如果它是na，那么它将检查y。

浏览 0提问于2019-08-14得票数 1

回答已采纳

1回答

在Scala中设计避免if-else梯形图的数据帧规则引擎

、、、

我想添加一列(“new_col”)。在基于不同规则的数据帧中，该规则是从现有列计算得出的。这些规则很复杂，有时会根据数据帧的4-5列进行计算。请参考以下代码片段： old dataframe = df(A,B,C,D,E,F,G,H) } return val3

浏览 7提问于2020-04-08得票数 0

回答已采纳

2回答

将新列及其数据添加到现有的DataFrame中，使用

、、

在scala中，我有一个ListString，我想将它作为一个新列添加到现有的DataFrame中。假设要添加一个部门的新列Name | Date | DepartmentRohan| 2007-12-21 |我怎样才能在Scala中做到这一点？

浏览 2提问于2016-10-03得票数 1

2回答

、、

我正在尝试将地理哈希返回到地理坐标，但我没有想出一个函数，可以对数据帧中的列执行此操作。

浏览 0提问于2019-05-02得票数 3

回答已采纳

点击加载更多