从spark数据帧中的列生成不同的值

文章/答案/技术大牛

发布

1回答

使用SparkR向Spark dataframes添加包含函数值的列

、、、

我正在使用SparkR来处理一些在其技术堆栈中包含R和spark的项目。sdf1$result <- sdf1$value == sdf2$value 问题是当我必须比较两个不同长度的数据帧时。使用函数操作sdf1和sdf2数据<

浏览 3提问于2017-05-18得票数 0

0回答

、、、

我有一个spark数据框，如下所示1 |ravi|21 |[M,J,J,K]我的输出应该是这样的1 |ravi|21 |[M,J,K]

浏览 2提问于2017-01-05得票数 0

2回答

Spark Dataframe分区数

、、

有人能解释一下为Spark Dataframe创建的分区数量吗？但是对于Spark dataframe，在创建时，我们看起来没有像RDD那样指定分区数量的选项。我认为唯一的可能性是，在创建数据帧之后，我们可以使用重新分区API。所以谁能

浏览 1提问于2016-09-07得票数 9

回答已采纳

1回答

统一Spark中具有不同列数的两个表

、

如何联合包含不同列数的两个数据帧A和B，并为数据帧A和B中不常见的列获取空值？我可以看到spark的unionAll不支持此操作，并抛出以下错误 org.apache.spark.sql.AnalysisException: Union can only be performedon tables with the same number of

浏览 0提问于2016-08-04得票数 0

1回答

pyspark尝试检索具有相同id的行

、、、

我使用的是spark 2.1.0。下面是我的数据框架。问题语句来自b列，我需要检索在a中具有相同值而在b中具有不同值的行。提到了生成的数据帧结果数据帧：我使用了下面的代码

浏览 0提问于2017-08-02得票数 0

3回答

删除spark数据帧中重复的所有记录

、、、、

我有一个包含多个列的spark数据帧。我想找出并删除列中有重复值的行(其他列可以是不同的)。我尝试使用dropDuplicates(col_name)，但它只删除重复的条目，但仍然在数据帧中保留一条记录。我需要的是删除所有最初包含重复条目的条目。我使用的是Spark 1.6和Scala 2.1

浏览 4提问于2018-04-10得票数 5

回答已采纳

1回答

对partitionBy创建的一个输出目录中的数据进行排序

、、、

我有一个很大的地理空间数据集partitionBy qk5的level 5。在每个quadkey级别的目录中，大约有1-50 Gb的数据，所以它不适合放在一个文件中。因此，我希望一个qk5分区中的文件按更高的qk分辨率排序(比方说四键级别10)。问:有没有一种方法可以在partitionBy批处理中对数据进行排序？part30000.parquet part40000.pa

浏览 19提问于2021-09-23得票数 2

回答已采纳

2回答

使用定义的StructType转换Spark数据帧的值

、、、

有没有一种方法可以使用StructType转换数据帧的所有值？让我用一个例子来解释我的问题： import org.apache.spark.sql(等同于读

浏览 7提问于2018-07-28得票数 4

回答已采纳

1回答

spark是否提供了一种生成64位随机盐的方法？

、

我正在使用Pyspark，并希望生成随机加密盐作为我的数据帧中的一个附加列。我想用它来为我的数据生成Hash或一种保留加密密码值的格式。Spark dataframe API中是否有生成加密盐的最佳实践？

浏览 2提问于2018-05-30得票数 0

1回答

Spark问题:如果我不缓存数据帧，它会被多次运行吗？

、、

如果我不缓存使用带有limit选项的spark SQL生成的dataframe，当我编辑得到的dataframe并显示它时，我会得到不稳定的结果吗？描述。我有一个类似下面的表格，它是通过使用带有limit选项的spark SQL生成的： +---------+---+---+---+---++--| 10| 18| | 1| 0| 0| 1

浏览 6提问于2021-04-21得票数 0

回答已采纳

2回答

优化PySpark与pandas DataFrames之间的转换

、、、、

我有一个13M行的pyspark数据帧，我想把它转换成pandas数据帧。然后，将根据其他参数以不同的频率(例如1秒、1分钟、10分钟)对数据帧进行重新采样以进行进一步分析。从文献[，]中，我发现使用以下任何一行都可以加快pyspark到pandas数据帧之间的转换： spark.conf.set("spark

浏览 11提问于2021-11-19得票数 0

1回答

Databricks -将Spark* dataframe转换为表:它是相同的数据源吗？*

、、

您将需要执行相当多的计算，从源数据帧，一个Spark表，不是吗？或者，dataframe和table都是指向相同数据的指针(即，在创建表时，不是在创建重复数据)？我猜我想要弄清楚的是，你是否可以从一个Spark数据帧到一个表‘开关开关’，或者这样做的计算量是否(非常)昂贵(毕竟这是大数据...)

浏览 26提问于2021-04-26得票数 0

3回答

如何从pandas数据帧中提取值并将其放入numpy数组中？

、

我有多个pandas数据帧，我想写一个函数，它将取出数据帧每列中的值，并将它们放入自己的numpy数组中。示例数据帧In [2]: df 0 1 2

浏览 1提问于2019-04-10得票数 0

3回答

查看Spark* Dataframe列的内容*

、、、

我使用的是Spark 1.3.1。我正在尝试查看Python中Spark dataframe列的值。有了Spark dataframe，我可以使用df.collect()来查看数据帧的内容，但在我看来，Spark dataframe列还没有这样的方法。例如，数据帧df包含一个名为'zip_code&

浏览 1提问于2015-06-30得票数 43

回答已采纳

1回答

通过连接比较两个pyspark数据帧

、、、

我有两个pyspark数据帧，它们的行数不同。我试图通过在多个键上连接这两个数据帧来比较所有列中的值，这样我就可以找到这些列中具有不同值的记录和具有相同值的记录。df1 and df2 on multiple keys same=df1.join(df2, on=['id'

浏览 14提问于2021-02-13得票数 0

1回答

spark json模式元数据可以映射到配置单元？

、、

在使用apache spark时，我们可以很容易地生成一个json文件来描述Dataframe结构。此数据帧结构如下所示： "type": "struct", { "type": "stringsap", "business_key"

浏览 1提问于2020-05-14得票数 0

1回答

对火花列中的空值抛出错误

、

我有一个Scala函数，它接受一个数据框架，并向它添加了一个额外的"id“列。生成的id是从数据帧中其他列的值派生的GUID。a new id (uuid) column from hashed values } 如果在我用来生

浏览 1提问于2020-12-10得票数 0

回答已采纳

1回答

如何合并或连接spark中列号不相等的数据帧

、、、、

我正在做一个使用spark的项目。在某些阶段，我需要在单个数据帧中合并或连接3个数据帧。这些数据帧来自spark sql表，我使用了联合函数，它已经合并了两个表中具有相同编号的列，但我也需要合并不相等的列值。我现在很困惑，有没有办法在pyspark中合并或连接不相等的基于<e

浏览 13提问于2016-09-22得票数 0

2回答

用于计算Spark中频率(值的等级)的UDF

、、、

我想要计算数据帧Spark中列值的频率，即计算出现频率最高的values.How的等级。我们在Spark中为此定义数据帧UDF了吗？

浏览 7提问于2017-07-31得票数 0

1回答

Spark Join:分析异常引用不明确

、、、

您好，我正在尝试连接spark中的两个数据帧，并收到以下错误：could be: Adapazari#100064, Adapazari#100065.; 根据几个消息来源的说法，当您尝试将两个不同的数据帧连接在一起时，可能会

浏览 8提问于2017-02-14得票数 1

回答已采纳

点击加载更多

使用SparkR向Spark dataframes添加包含函数值的列