如何使用replaceWhere子句获得以下spark行为_如何使用spark RDD实现以下需求_HDInsigh Spark如何使用以下代码 - 腾讯云开发者社区

apache-spark、pyspark、apache-spark-sql、delta-lake

示例:考虑我的增量表中已经按id列分区的数据： +---+---++---+---+| 2| B|+---+---+ 现在，我想插入以下数据帧NEW|| 3| C|| 5| E| +---+---------+ 我所做的如下所示： df = spark.read.formatdf.filter(df.id==Id).write.format("delta").option

浏览 51提问于2021-08-13得票数 1

回答已采纳

1回答

Spark Scala代码的工作方式与其pyspark版本不同

scala、apache-spark、pyspark

我有一个关于Spark的一般性问题。当我们使用完全相同的代码时，Pyspark和Scala Spark应该总是有相同的行为吗？如果是，你如何解释这个例子： Scala版本： val inputDf = spark .format("csv") tmp.write.format("delta").option("mergeSchema

浏览 14提问于2021-08-16得票数 0

回答已采纳

1回答

为什么我的writeStream函数只写一行？

apache-spark、pyspark、spark-streaming

我一直在努力理解这种奇怪的火花流行为。我做这个例子只是为了理解流是如何工作的，我不想使用其他的解决方案--我只需要理解为什么这不起作用。所以，我必须在/test/input中使用CSV文件+---+---++---+---+| 2| B|+---+---option("ignoreChanges", "true").option

浏览 1提问于2021-08-12得票数 0

回答已采纳

2回答

spark增量覆盖特定分区

apache-spark、delta

我使用以下代码编写此数据 .repartition(1) .format("delta") .mode("overwrite") .option("replaceWhere","FILE_DATE=" + run_for_file_date) .

浏览 4提问于2020-01-22得票数 4

2回答

不带组/聚合的Spark有子句

apache-spark、apache-spark-sql、pyspark-sql

我想知道spark子句在没有GroupBY或任何聚合函数的spark中是如何工作的？select 1 as a having a=1spark.sql(""" selec

浏览 0提问于2019-07-01得票数 0

回答已采纳

1回答

三角台优化/真空

apache-spark、delta-lake

我有一个kubernetes作业(运行在prem上)正在以Delta表的形式将文件写入adls gen2容器。(在Kubernetes上火花，这有助于我在adls上编写增量表)是否有一种自动化的方式/设置，我们可以自动优化&真空三角表。谢谢拉胡尔·基肖尔

浏览 6提问于2021-12-21得票数 1

1回答

火花过滤器未按预期工作..“‘Column”对象不可调用

apache-spark、dataframe、filter、pyspark、pyspark-sql

当在Spark Dataframe上的过滤器中使用"and“子句时，它返回Spark.SQL.Column而不是Spark Dataframe。但在一个条件下，它工作得很好。如何show()或迭代通过Spark Sql列对象？尝试show()函数时抛出错误- 'Column' object not callable.或者如何将Spark.SQL.Column转换为Spark Datafr

浏览 1提问于2019-04-23得票数 0

1回答

Spark: spark-submit不接受自定义log4j.properties

logging、apache-spark、log4j

这可能是的副本，但它与Spark 1.3/4相关。我正在使用1.5.2。spark-submit --

浏览 0提问于2016-02-03得票数 2

1回答

Spark 2.2.0 FileOutputCommitter

hadoop、apache-spark、amazon-s3、apache-spark-sql、amazon-emr

DirectFileOutputCommitter在Spark2.2.0中不再可用。这意味着写到S3需要非常长的时间(3小时比2分钟)。通过这样做，我可以通过将FileOutputCommitter版本设置为2来解决这个问题， spark-shell --conf spark.hadoop.mapreduce.fileoutputcommitter.algorithm.versionspark-sql --conf spark.hadoop.mapreduce.fileoutputcommitter.al

浏览 5提问于2017-09-17得票数 13

2回答

spark sql中是否有与nth_value等效的窗口函数

apache-spark-sql

我正在寻找一个窗口函数，从分区/窗口中获取第n个值，类似于

浏览 0提问于2020-06-08得票数 0

2回答

Spark 2.4.x: map中的重复键

python、apache-spark、pyspark、apache-spark-sql

在Spark中给定以下两个数组列： df = spark.createDataFrame( Row(+------------------------++------------------------+ 我想使用2.4.x中，map函数的行为是复制键。我知道Spark 3.x使用config

浏览 175提问于2021-07-15得票数 2

1回答

使用Delta，如何在压缩后删除原始文件

apache-spark、spark-streaming、databricks、delta-lake

下面是我如何压缩数据(我正在使用Java)： .format("delta") .format("delta") .option("repl

浏览 5提问于2021-06-29得票数 2

2回答

无法使用火花连续流处理数据

apache-spark、pyspark、apache-kafka、spark-structured-streaming

我正在开发一个实时流应用程序，该应用程序可以从Kafka broker中轮询数据，并且我正在调整以前默认使用Spark结构化流的代码(带有微批处理)。但是，我不知道如何使用连续流而不是微批量流来获得类似的行为。.foreach(example_func) \ .start() 连续执行不支持在org.apache.<em

浏览 1提问于2020-09-29得票数 5

1回答

排除Spark优化器中的特定规则

apache-spark-sql

我有以下涉及UNION的Spark (2.4.0)查询。现在，我试图限制优化器从其查询的物理计划中排除特定规则，以便Spark只为这两个查询创建一个Exchange。我试过以下几句都是徒劳的。SET "spark.sql.optimizer.excludeRules" = org.apache.spark.sql.catalyst.optimizer.PushDownPredicate;from tableAhaving coun

浏览 1提问于2020-07-20得票数 0

回答已采纳

1回答

Spark& GeoMesa中地理空间表的左半连接

apache-spark-sql、geospatial、geomesa

问题：select * from table 1 where table1.point is within 50km of any pointin table2.point 我使用Spark-SQL和GeoMesa & Accumulo来实现同样的功能。(Spark作为处理引擎，Accumulo作为数据存储库& GeoMesa用于GeoSpatial库)。上面的查询是某种left semi join，但我不确定如何使用<

浏览 3提问于2017-03-23得票数 0

回答已采纳

3回答

添加包含按df分组的列数og的列

scala、dataframe、apache-spark、group-by

如何使用group By子句将列添加到具有行数的DF中？2 || Cat1 | B | 1 |我尝试了以下几种方法df.withColumn("n", df.groupBy("Category", "txn").count()) type mismatch; found : org.apac

浏览 46提问于2019-11-25得票数 2

回答已采纳

1回答

如何选择不属于GROUP子句或聚合函数的列？

mysql、apache-spark-sql

我有以下查询：FROM public."tabA"在执行时，Spark提供：如何与其他列一起选择列的计数？

浏览 0提问于2017-03-09得票数 1

回答已采纳

2回答

在Spark* JDBC属性中下推过滤器谓词*

apache-spark、jdbc

我如何设置我的spark jdbc选项，以确保我将过滤器谓词下推到数据库中，而不是先加载所有内容？我用的是spark 2.1我无法获得正确的语法来使用，我知道我可以在load()后面添加一个where子句，但这显然会先加载所有内容。我正在尝试下面的方法，但是这个过滤器在我的db客户端中运行需要几秒钟的时间，它没有返回任何东西，只是在尝试从spark jdbc向下推送谓词时继续运行。TS_COLUMN) = '2018-01-01'" &#x

浏览 2提问于2018-01-04得票数 1

1回答

Spark Mongo连接器:在MongoDB连接中只插入一个属性

python、mongodb、apache-spark、upsert

假设我有以下蒙戈文件： "_id":1, "foo": 20以及下面的星火DataFrame df： 1 | 'a'但!如果我执行以下操作，则

浏览 0提问于2018-05-30得票数 1

回答已采纳

1回答

创建具有任意数量的子句的PySpark .when()语句

python、apache-spark、pyspark、apache-spark-sql

我是PySpark的新手，我正在尝试创建一个通用的.when()函数，它可以接受任意数量的when-子句，而不必在函数中列出它们。when( ) df.when( ) ) 我怀疑我将不得不使用**kwargs来允许这种行为的发生，但我不确定Spark是否已经支持这种行为。

浏览 11提问于2020-11-06得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云