组合不同列数的Spark数据帧

文章/答案/技术大牛

发布

1回答

、、

在this问题中，我问过如何组合具有不同列数的PySpark数据帧。给出的答案要求每个数据帧必须具有相同的列数才能将它们全部合并： from pyspark.sql import SparkSession

浏览 13提问于2021-06-28得票数 1

回答已采纳

1回答

统一Spark中具有不同列数的两个表

、

如何联合包含不同列数的两个数据帧A和B，并为数据帧A和B中不常见的列获取空值？我可以看到spark的unionAll不支持此操作，并抛出以下错误 org.apache.spark.sql.AnalysisException: Union can only be performedon tables with the same number of columns,

浏览 0提问于2016-08-04得票数 0

2回答

Spark Dataframe分区数

、、

有人能解释一下为Spark Dataframe创建的分区数量吗？但是对于Spark dataframe，在创建时，我们看起来没有像RDD那样指定分区数量的选项。我认为唯一的可能性是，在创建数据帧之后，我们可以使用重新分区API。所以谁能

浏览 1提问于2016-09-07得票数 9

回答已采纳

1回答

为什么"groupBy agg count alias“不创建新列？

、、

alias("count")) .limit(3)它在以下行失败：.orderBy(df("count").desc)，说明没有这样的列

浏览 2提问于2018-11-08得票数 0

1回答

火花DataFrame的元数据

、、、、

我正在通过"sparklyr“和"SparkR”对spark in R进行基准测试。我在不同的Testdata上测试不同的函数。在两种特殊的情况下，我计算了一列中的零的数量和一列中的NA的数量，我意识到无论数据有多大，在不到一秒的时间内就能得到结果。所有其他计算都会随着数据的大小而变化。所以

浏览 0提问于2017-03-24得票数 1

2回答

使用scala统计spark数据帧中列组合的实例

、、

我在scala中有一个名为df的spark数据帧，它有两列，即a和b，a列包含字母，b列包含数字，如下所示。a b g 0 g 0我可以使用以下命令获取不同的行它提供了以下内容：---------- g

浏览 2提问于2015-10-28得票数 9

回答已采纳

1回答

接受未知列数的Spark UDF

、、、、

我有一个不同模式的spark数据帧列表。# df3.columns = ['a', 'b', 'c', 'd']现在，我想要编写一个udf，它能够操作具有不同列数的

浏览 4提问于2016-08-06得票数 3

回答已采纳

2回答

将Spark中的多个ArrayType列合并为一个ArrayType列

、、

我想在spark中合并多个ArrayTypeStringType列来创建一个ArrayTypeStringType。为了组合两列，我在这里找到了解决方案：但是，如果我不知道编译时的列数，我该如何进行组合呢？在运行时，我将知道要组合的所有列的名称。一种选择是使用上面的stackoverflow问题中定义的UDF，在循环中多次添加两列。但这涉及到

浏览 0提问于2018-08-30得票数 0

1回答

如何将不同的数据帧组合和排序为一个数据帧？

、、

给定两个数据帧，这两个数据帧可能具有完全不同的模式，除了索引列(本例中为<code>D0</code>)，例如下面的df1和df2：<code>A1</code><code>A2</code> 我如何将这两个数据帧组合成一个如下所示的数据帧

浏览 18提问于2019-03-27得票数 0

1回答

我们将Spark数据帧分区到多个列上。例如，我们有一个合作伙伴列，可以是Google、Facebook和Bing。我们有一个通道列，可以是PLA和Text。我们想在Google-PLA，Google-TEXT，Facebook-TEXT上运行异常检测，...等等，因为它们遵循不同的模式。到目前为止，我已经知道我可以用不同的过滤器描述来配置AnomalyCheckConfig，并在检查结果时使用相同的过滤器。但首先，我

浏览 27提问于2021-02-02得票数 0

1回答

如何避免R中sqldf中的完全外连接

、

我有两个数据帧(让我们分别指定df1和df2)，每个数据帧有1347列(两个数据帧的组合名完全相同)和不同的行数( df1中有730行，df2中有706行)。我需要计算所有列之间的差异(除了一列之外，即1346列之间的差异)，并保存列的名称。我所知道的最好<

浏览 10提问于2021-04-24得票数 0

4回答

比较两种数据火花

、、、、

我试图比较两个列数相同的两个数据帧，即在两个数据帧中有4列以id作为键列df2 = spark.read.csv("/path/to/data2.csv") 现在我想将新列附加到DF2，即colu

浏览 7提问于2020-02-18得票数 7

回答已采纳

2回答

获取数组列的大小/长度

、、

我是Scala编程的新手，这是我的问题:如何计算每行的字符串数？我的数据帧由ArrayString类型的单个列组成。friendsDF: org.apache.spark.sql.DataFrame = [friends: array<string>]

浏览 2提问于2017-09-07得票数 45

回答已采纳

1回答

Spark Java将dataframe中的每个值四舍五入到两位小数。

、、

我在spark中有一个数据帧，有10列和100行左右的行。数据帧中的每个单元格都包含一个十进制数。我想把所有的小数四舍五入到小数点后两位。我如何在Java中做到这一点？

浏览 0提问于2017-06-08得票数 0

1回答

为什么我看不到所请求的重新分区的较小任务？

、、、

我有一个数据集，我想要将每个列的唯一值平均地重新划分到10个桶中，并且我希望将这个结果调整到大量的分区中，这样每个分区都是小的。col_1保证是["CREATE", "UPDATE", "DELETE"]中的值之一。我的代码如下所示："""| col_1|col_2|index| +------+-----+----

浏览 4提问于2021-12-13得票数 0

回答已采纳

1回答

如何合并合并结果的列元素

我有7个数据帧，具有不同的行号，但列数相同，我想生成所有数据帧的每一个可能的组合。我使用以下命令将所有数据帧组合到一个数组中：Dataset[[1,1,1]] <- df1Dataset[[1,

浏览 0提问于2013-01-02得票数 1

回答已采纳

1回答

R-根据数据帧名称中的模式组合多个数据帧

、、

我想在全局环境中根据数据帧名称中的模式组合数据帧，同时添加原始文件的名称。我的问题是，我最初有一个zip文件，在主文件夹和子文件夹中有20多个文本文件，主要观察两个不同的场景："test“和"train”。因此，我决定首先将所有的txt文件读取到R中，创建具有"test“或"train”模式的两个不同的df名称列表，并使用这

浏览 9提问于2020-09-21得票数 2

回答已采纳

3回答

删除spark数据帧中重复的所有记录

、、、、

我有一个包含多个列的spark数据帧。我想找出并删除列中有重复值的行(其他列可以是不同的)。我尝试使用dropDuplicates(col_name)，但它只删除重复的条目，但仍然在数据帧中保留一条记录。我需要的是删除所有最初包含重复条目的条目。我使用的是Spark 1.6和Scala 2.10。

浏览 4提问于2018-04-10得票数 5

回答已采纳

1回答

如何检查数据帧(Pandas)中是否存在所有可能的列组合？

、、

我有以下数据帧 A B ... 1 1 20 2 1 2 2 3 我想检查一下dataframe是否是每个列中条目的完整组合。在上面的数据帧中，情况就是这样。A= {1,2} B= {1,2,3}，数据帧包含所有可能的组合。以下示例将导致false。A B 1 1 2 0

浏览 20提问于2021-04-07得票数 2

回答已采纳

2回答

Rdd到Dataframe，其中架构以编程方式基于标头

、、、、

sc.parallelize(Array( "1, cat, dog",我想将RDD转换为dataframe，其中模式是基于RDD的第一行以动态/编程方式创建的。我希望将逻辑应用于多个类似的RDDs，并且不能使用case类以编程方式指定模式，也不能从一开始就使用spark-csv将数据作为dataframe加载。我已经创建了一个扁平化的datafra

浏览 1提问于2019-11-19得票数 0

点击加载更多