在scala spark中合并两个数据帧 - 腾讯云开发者社区

、、、

例如，我有两个数据帧， DF1|id | value1|value2|value3|| 2 |200 |300 |400 |+----+-------+------+------+ 我想按id合并这两个数据帧，同时将两个数据<em

浏览 19提问于2019-03-30得票数 1

2回答

当编码时Row模式未知时，如何将string与Row合并以创建新的spark dataframe？

、、、、

我计划将此函数应用于不同模式的各种数据帧。这些数据帧非常庞大，每个数据帧有数百万行，但每个数据帧都有一个定义好的模式我想创建另一个函数，它将调用第一个函数，将函数的输出字符串与它发送到函数的行合并，并创建一个新的数据帧，该数据帧将作为第二个函数的输出这两个函数都将在spark-scala环境中</em

浏览 46提问于2019-10-15得票数 0

回答已采纳

1回答

如何合并或连接spark中列号不相等的数据帧

、、、、

我正在做一个使用spark的项目。在某些阶段，我需要在单个数据帧中合并或连接3个数据帧。这些数据帧来自spark sql表，我使用了联合函数，它已经合并了两个表中具有相同编号的列，但我也需要合并不相等的列值。我现在很困惑，有没有办法在pyspark中合并或连接不相等的基于列的

浏览 13提问于2016-09-22得票数 0

3回答

如何比较SQL语句中两种数据的模式？

、、

在spark (如 )中，有许多方法来验证两个数据帧的架构。但是我只想在SQL中验证两个数据帧的模式，我指的是SparkSQL。中没有数据库(模式)的概念，但是我读到了包含模式信息等的亚稳态。我们可以在SparkSQL中编写像上面这样的SQL查询吗？我只是在检查为什么显示create没有使用spark

浏览 6提问于2018-09-04得票数 1

4回答

在scala* spark中合并两个数据帧*

、

我有两个数据帧： dataframe1： +-----++-----++-------------++-----++-----++----|| 7|| nmb|| true | +-----++-----++--------------+ 我必须合并这些数据帧以获得以下内容

浏览 9提问于2020-03-18得票数 0

3回答

字符串列包含通过spark* scala进行精确匹配的单词*

、、

我有两个数据帧，第一个数据帧包含实际数据(从CSV文件读取)，第二个数据帧包含一个具有多个关键字的列。即下面的Dataframe-1外观相似(我们必须搜索的地方)：数据帧-2：我想要的输出：我在这里使用spark scala。我想要一个与dataframe-1中的dataframe-2完全匹配的单词。我使用了like、rlike

浏览 1提问于2021-02-12得票数 0

1回答

如何在scala中访问和合并未来类型的多个DataFrame

、、、、

我有spark scala应用程序。我正在尝试使用它内部的Futures来并行化几个独立的操作集。我在期货中调用它们，它们返回给我未来类型的DataFrame，我如何在最后合并它们，并在任何未来类型无法计算的情况下抛出错误。下面是我的代码。当我尝试在onComplete块中应用数据帧的联合时，它显示以下错误 value union is not a member of scala.concurrent.Future[

浏览 2提问于2020-01-22得票数 0

1回答

从多个文件读取Spark数据帧

、、

假设您有两个s3存储桶，您想要从中读取spark数据帧。对于在spark数据帧中读取的一个文件，将如下所示： file_1 = ("s3://loc1/") df = spark.read.option("MergeSchema","True").load(file_1) 如果我们有两个文件： file_1

浏览 9提问于2021-10-18得票数 0

回答已采纳

3回答

如何连接具有相同列的数据集并选择一个？

、、、

我有两个Spark数据帧，之后我会加入并选择它们。我想选择其中一个数据帧的特定列。但是在另一个中存在相同的列名。因此，我得到了一个二义列的异常。

浏览 0提问于2017-12-28得票数 5

回答已采纳

1回答

Spark structured streaming -联合两个或多个流媒体源

、、、

我使用的是spark 2.3.2，在对来自Kafka的2个或更多流媒体资源进行联合时遇到了一个问题。这些都是来自Kafka的流媒体源，我已经将它们转换并存储在Dataframes中。理想情况下，我希望将此UNIONed数据帧的结果以parquet格式存储在HDFS中，甚至可能存储回Kafka中。最终目标是以尽可能低的延迟存储这些合并的事件。$apache$spark$sql$execution$streaming$M

浏览 52提问于2019-07-02得票数 1

回答已采纳

3回答

Spark合并不会减少分区数量

、

我有这个代码print(" after coalisce getting nb partition " + str(df.rdd.getNumPartitions()))

浏览 1提问于2018-10-09得票数 0

2回答

当表已经存在时，使用spark* dataframe覆盖表失败*

、、、

为什么我的代码不能像预期的那样覆盖数据库中的数据？我已经使用客户端检查了该表，并且它确实存在(这应该无关紧要)。而且里面也有数据。怎么了？这会不会是内存问题？(commands.scala:68) at or

浏览 2提问于2019-12-13得票数 1

3回答

在Scala中追加/联合多个数据帧

、、、

我来自python背景，试图将中的函数转换为scala。在这个虚拟示例中，我有多个(未知数量)的数据帧需要合并在一起。%python spark.createDataFrame( ('B', 'E')], ['dummy1','dummy2

浏览 24提问于2021-09-29得票数 2

回答已采纳

1回答

spark-cassandra-connector -从Dataframe创建表格- StructType？

、、

我正试着从Spark数据帧中写给Cassandra。当我有一个简单的数据帧模式时，如示例中所示，它可以工作： |-- id: string (nullable = true)但是，当我尝试编写包含StructTypes的数据帧时，其模式如下： |-- crawl: struct (nullable = true) | |-- id: string (

浏览 4提问于2016-06-27得票数 1

1回答

spark vs pandas dataframe (具有大列) jupyter笔记本中的head(n)

、、、、

几天后，数据带来了大量的功能。为了获得简短的数据摘要，人们将数据加载到数据框中，并使用head()方法显示数据。使用Jupyter Notebook( Toree for scala)进行实验是很常见的。Spark (scala)很适合处理大量数据，但是它的head()方法不能在水平滚动的notebook中显示列标题。熊猫数据帧头 Spark

浏览 3提问于2018-06-13得票数 2

2回答

列拆分-星火DataFrame - Scala

、、

我正在使用Scala的Spark数据帧进行一个小项目。我成功地从.csv文件中清除了一些数据，但是最终结果(输出)包含一个列，其中合并了“年龄”和“作业”数据。请看下面的截图。我已经为这个做了很长一段时间了，但我现在被困住了。注意:我在Shell上使用Scala</

浏览 11提问于2022-10-02得票数 0

3回答

如何使用createDataFrame创建pyspark数据帧？

我知道这可能是一个愚蠢的问题。我有以下代码：rows = [1,2,3]df.printSchema()但是我得到了一个错误：我不明白为什么会发生这种情况，因为我已经提供了'data'，也就是变量row。

浏览 1提问于2018-03-12得票数 2

回答已采纳

3回答

在spark* 1.6中将csv读取为数据帧*

、

我使用的是Spark 1.6，正在尝试将csv (或tsv)文件读取为数据帧。以下是我采取的步骤：scala> import sqlContext.implicits._scala> .format("com.databric

浏览 12提问于2016-07-27得票数 2

1回答

在S3中将sparkdataframe写入.csv文件，并在pyspark中选择一个名称

、、、、

我有一个数据帧，我打算用S3把它写成一个.csv文件，我用下面的代码：它将一个.csv文件放在product_profit_weekly文件夹中，目前.csv文件在S3中有一个奇怪的名字，我写的时候可以选择一个文件

浏览 0提问于2016-10-28得票数 9

回答已采纳

1回答

如何在pyspark中使用azure-sqldb-spark连接器

、、、

我想每天写大约10 GB的数据到Azure SQL server DB，使用PySpark.Currently，使用JDBC driver，这需要花费数小时逐个制作insert语句。我计划使用azure-sqldb-spark连接器，它声称可以使用批量插入来加速写入。import com.microsoft.azure.sqldb.spark.config.Config import com.microsoft.azure.

浏览 2提问于2018-10-27得票数 7

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在spark中连接两个数据帧并添加字段

当编码时Row模式未知时，如何将string与Row合并以创建新的spark dataframe？

如何合并或连接spark中列号不相等的数据帧

如何比较SQL语句中两种数据的模式？

在scala* spark中合并两个数据帧*

字符串列包含通过spark* scala进行精确匹配的单词*

如何在scala中访问和合并未来类型的多个DataFrame

从多个文件读取Spark数据帧

如何连接具有相同列的数据集并选择一个？

Spark structured streaming -联合两个或多个流媒体源

Spark合并不会减少分区数量

当表已经存在时，使用spark* dataframe覆盖表失败*

在Scala中追加/联合多个数据帧

spark-cassandra-connector -从Dataframe创建表格- StructType？

spark vs pandas dataframe (具有大列) jupyter笔记本中的head(n)

列拆分-星火DataFrame - Scala

如何使用createDataFrame创建pyspark数据帧？

在spark* 1.6中将csv读取为数据帧*

在S3中将sparkdataframe写入.csv文件，并在pyspark中选择一个名称

如何在pyspark中使用azure-sqldb-spark连接器

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐