处理Spark Scala API交叉连接的最佳方法，这会导致左右数据帧具有相同的列名

、、

在Spark Scala API中使用crossJoin时，输出具有相同名称的列，这会由于歧义而导致错误。为了避免这些歧义错误，一种解决方案是能够重命名右侧或左侧数据帧的所有列。有没有办法用Scala API做到这一点？现在，我找到了一个使用SQL API的解决方案(见下文)，但我想知道是否有更好的方法

浏览 23提问于2020-06-28得票数 2

回答已采纳

2回答

从Dataframe - Pandas中所有列的列名中删除最后两个字符

、、、

我使用用户ID键连接具有相同列/列名的两个数据帧(a，b)，并且在连接时，我必须提供后缀字符，以便创建它。下面是我使用的命令：如果我不使用这个后缀，我会得到错误。但我不希望列名发生变化，因为这会在运行其他分析时导致问

浏览 3提问于2016-05-06得票数 5

回答已采纳

1回答

Azure Synapse分析笔记本中数字列名的PySpark缺少列名错误

、

在使用Azure Synapse SQL专用池作为数据源创建dataframe时，我遇到了这个问题。某些列具有数字列名，如"240“。我使用了scala中的synapsesql连接器，然后使用spark.sql抓取数据帧到pyspark数据帧。即使我能够毫无问题地打印出数据帧的模式，尝试选择任何具有数字名称的<

浏览 25提问于2021-09-06得票数 1

1回答

DataFrame na()填充方法和不明确引用的问题

、

我使用的是Spark 1.3.1，其中连接两个数据帧会重复连接的列。我在外部连接两个数据帧，希望将结果数据帧发送到na().fill()方法，以便根据列的数据类型将空值转换为已知值。我构建了一个"table.column“-> "value”的映射，并将其传递给fill方法</

浏览 4提问于2016-02-28得票数 3

3回答

在Spark* DataFrame中将空值转换为空数组*

、、、

我有一个Spark数据帧，其中一列是整数数组。该列可以为空，因为它来自左外部联接。我希望将所有null值转换为一个空数组，这样以后就不必处理null值了。myCol = df("myCol")但是，这会导致以下异常$.apply(literals.scala:49) at org

浏览 5提问于2016-01-08得票数 24

回答已采纳

2回答

Apache与dataset的交叉连接非常慢

、、、

我们有一个用例，在这个用例中，我们需要执行笛卡儿连接，由于某些原因，我们无法使它与Dataset API一起工作。 **项

浏览 0提问于2019-02-15得票数 3

1回答

Pyspark中的完全阻塞连接

、

我正在尝试使用pyspark对数据库进行重复数据删除，并且作为管道的一部分，我希望从两个完全相同的左侧和右侧数据帧创建一个数据帧。它们有一个共享的索引。最初我很懒，只是使用了交叉连接，但这导致了重复的连接(因为从左到右与从右到左是一样的)。但是我现在需要对代码进行一些优化，我想知道实现这种连接

浏览 10提问于2019-07-09得票数 0

1回答

如何使用sql查询而不是api覆盖列

、

我希望将这两列连接起来，并用连接的结果覆盖列name。在Spark sql api中，我们可以执行select *, concat(name, " ", last_name) AS name from customers 将

浏览 0提问于2020-09-10得票数 0

1回答

转换后保留Spark数据帧的分区数量

、、、

我在代码中发现了一个bug，其中一个数据帧被分割成比预期更多的分区(超过700个)，当我试图将它们重新分区到只有48个时，这会导致太多的随机操作。我不能在这里使用coalesce()，因为在进行重新分区之前，我希望首先有更少的分区。我正在寻找减少分区数量的方法。假设我有一个spark数据帧(包含多个列)划分为10个分区。此操作完成后，生成的数据

浏览 2提问于2017-09-13得票数 1

2回答

因此，我在Spark(scala)中有两个列表。它们都包含相同数量的值。第一个列表a包含所有字符串，第二个列表b包含所有长字符串。String] = List("a", "b", "c", "d") b: List[Long] = List(17625182, 17625182, 1059731078, 100) 我还有一个定义如下的模式StructField("check_name", StringTyp

浏览 11提问于2021-03-15得票数 0

回答已采纳

1回答

PySpark -当值为"t“和"f”时，如何使用模式读取BooleanType

、、、

我使用StructType定义了一个模式，用于读取Redsfhit中的数据帧。该表具有350+列，其中许多列被配置为布尔值。at scala.collection.immutable.StringOps.toBo

浏览 1提问于2017-11-22得票数 3

1回答

尝试将"org.apache.spark.sql.DataFrame“对象转换为pandas dataframe会导致在数据库中出现错误"name 'dataframe‘is not defined

、、、、

我正在尝试通过databricks中的jdbc连接来查询SQL数据库，并将查询结果存储为pandas dataframe。我在网上找到的所有方法都涉及到将其存储为Spark对象的一种类型，首先使用Scala代码，然后将其转换为pandas。password" -> "password123"), ("driver" -> "com.microsoft.sqlserver.j

浏览 239提问于2020-05-29得票数 0

1回答

Spark Scala dataframe使用列列表和joinExprs动态连接

、、、

我正在创建一个函数，它以连接键和条件作为参数，动态地连接两个数据帧。我理解Spark Scala Dataframe join done the following ways 1) join(right: Dataset[_]): DataFrame 2) join(rightcondition/joinExprs -不确定如何传递它，但它可以是像"df2(colname) == 'xyz'"这样的字符串 Based o

浏览 93提问于2021-08-18得票数 0

回答已采纳

2回答

在PySpark中使用列对象而不是字符串有什么优点

、、、、

这两种方法返回相同的结果。有什么不同吗？什么时候应该使用列对象而不是字符串？col_name')))df.select(F.lower(df['col_name']))df.select(F.lower(df.col_name)) 或者我可以使用字符串来代替，并得到相同的结果

浏览 0提问于2020-11-09得票数 0

2回答

使用h2o mojo模型对spark集群并行化问题进行预测

、、

由于我预测的数据帧具有超过100个特征，因此我使用以下函数将数据帧行转换为h2o的RowData格式(来自)：val easyModel = new EasyPredictModelWrapper(mojo) 现在，如果我首先收集<em

浏览 1提问于2018-01-03得票数 0

3回答

如何连接具有相同列的数据集并选择一个？

、、、

我有两个Spark数据帧，之后我会加入并选择它们。我想选择其中一个数据帧的特定列。但是在另一个中存在相同的列名。因此，我得到了一个二义列的异常。

浏览 0提问于2017-12-28得票数 5

回答已采纳

3回答

在Spark之后使用scala对象

、、、

用例我的数据被写成dataframes，我想检查两个具有完全相同模式的数据文件，以确保相等。具体来说，要检查每个id值，来自第一和第二数据value的记录是否是相同的。我的假设是，我需要实现一个新的dataframe (即通过一个连接操作)，以便在Spark中执行这个操作。到目前为止，这个假设是正确的吗？因为其中一些值本身就是

浏览 2提问于2019-12-23得票数 1

回答已采纳

1回答

AWS胶-不知道如何将NullType保存为红移

、、、

下面是AWS Glue的简单脚本。我有一个带有空单元格的文本文件和一个接受空值的表。当我运行胶水作业时，它会失败，例外情况是“不知道如何将NullType保存为REDSHIFT”。如何处理此问题，或者通过Glue在RedShift中不支持空插入？我没有任何空字符就重新生成了我的文件，我也有同样的问题。我添加了这行代码。推断了一些不存在的NullType字段。我的字段中只有大约1/2有值。

浏览 4提问于2017-11-28得票数 5

4回答

Spark SQL会完全取代Apache Impala或Apache Hive吗？

、、、、

我需要在我们的服务器上部署大数据集群。但我只知道关于Apache Spark的知识。现在我需要知道Spark SQL是否能完全取代Apache Impala或Apache Hive。我需要你的帮助。

浏览 3提问于2016-10-25得票数 7

1回答

Neo4j作为火花放电的数据源

、、、、

我有一个要求，我必须从Neo4j中提取数据，并从这些数据中创建Spark。我在我的项目中使用Python。连接器具有相同的用途，但它是用Scala编写的。所以我现在可以想出解决办法- 以小块/批的形式从neo4j查询数据，使用parallize()方法将每个块转换为Spark。最后，使用union()方法合并&#x

浏览 7提问于2018-01-09得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

从Dataframe - Pandas中所有列的列名中删除最后两个字符

Azure Synapse分析笔记本中数字列名的PySpark缺少列名错误

DataFrame na()填充方法和不明确引用的问题

在Spark* DataFrame中将空值转换为空数组*

Apache与dataset的交叉连接非常慢

Pyspark中的完全阻塞连接

如何使用sql查询而不是api覆盖列

转换后保留Spark数据帧的分区数量

Spark从多个列表/数组创建数据帧

PySpark -当值为"t“和"f”时，如何使用模式读取BooleanType

尝试将"org.apache.spark.sql.DataFrame“对象转换为pandas dataframe会导致在数据库中出现错误"name 'dataframe‘is not defined

Spark Scala dataframe使用列列表和joinExprs动态连接

在PySpark中使用列对象而不是字符串有什么优点

使用h2o mojo模型对spark集群并行化问题进行预测

如何连接具有相同列的数据集并选择一个？

在Spark之后使用scala对象

AWS胶-不知道如何将NullType保存为红移

Spark SQL会完全取代Apache Impala或Apache Hive吗？

Neo4j作为火花放电的数据源

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐