腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
使用
replaceWhere
子句
获得
以下
spark
行为
apache-spark
、
pyspark
、
apache-spark-sql
、
delta-lake
示例:考虑我的增量表中已经按id列分区的数据: +---+---++---+---+| 2| B|+---+---+ 现在,我想插入
以下
数据帧NEW|| 3| C|| 5| E| +---+---------+ 我所做的如下所示: df =
spark
.read.formatdf.filter(df.id==Id).write.format("delta").option
浏览 51
提问于2021-08-13
得票数 1
回答已采纳
1
回答
Spark
Scala代码的工作方式与其pyspark版本不同
scala
、
apache-spark
、
pyspark
我有一个关于
Spark
的一般性问题。 当我们
使用
完全相同的代码时,Pyspark和Scala
Spark
应该总是有相同的
行为
吗?如果是,你
如何
解释这个例子: Scala版本: val inputDf =
spark
.format("csv") tmp.write.format("delta").option("mergeSchema
浏览 14
提问于2021-08-16
得票数 0
回答已采纳
1
回答
为什么我的writeStream函数只写一行?
apache-spark
、
pyspark
、
spark-streaming
我一直在努力理解这种奇怪的火花流
行为
。我做这个例子只是为了理解流是
如何
工作的,我不想
使用
其他的解决方案--我只需要理解为什么这不起作用。所以,我必须在/test/input中
使用
CSV文件+---+---++---+---+| 2| B|+---+---option("ignoreChanges", "true").option
浏览 1
提问于2021-08-12
得票数 0
回答已采纳
2
回答
spark
增量覆盖特定分区
apache-spark
、
delta
我
使用
以下
代码编写此数据 .repartition(1) .format("delta") .mode("overwrite") .option("
replaceWhere
","FILE_DATE=" + run_for_file_date) .
浏览 4
提问于2020-01-22
得票数 4
2
回答
不带组/聚合的
Spark
有
子句
apache-spark
、
apache-spark-sql
、
pyspark-sql
我想知道
spark
子句
在没有GroupBY或任何聚合函数的
spark
中是
如何
工作的?select 1 as a having a=1
spark
.sql(""" selec
浏览 0
提问于2019-07-01
得票数 0
回答已采纳
1
回答
三角台优化/真空
apache-spark
、
delta-lake
我有一个kubernetes作业(运行在prem上)正在以Delta表的形式将文件写入adls gen2容器。(在Kubernetes上火花,这有助于我在adls上编写增量表)是否有一种自动化的方式/设置,我们可以自动优化&真空三角表。谢谢拉胡尔·基肖尔
浏览 6
提问于2021-12-21
得票数 1
1
回答
火花过滤器未按预期工作..“‘Column”对象不可调用
apache-spark
、
dataframe
、
filter
、
pyspark
、
pyspark-sql
当在
Spark
Dataframe上的过滤器中
使用
"and“
子句
时,它返回
Spark
.SQL.Column而不是
Spark
Dataframe。但在一个条件下,它工作得很好。
如何
show()或迭代通过
Spark
Sql列对象?尝试show()函数时抛出错误- 'Column' object not callable.或者
如何
将
Spark
.SQL.Column转换为
Spark
Datafr
浏览 1
提问于2019-04-23
得票数 0
1
回答
Spark
:
spark
-submit不接受自定义log4j.properties
logging
、
apache-spark
、
log4j
这可能是的副本,但它与
Spark
1.3/4相关。我正在
使用
1.5.2。
spark
-submit --
浏览 0
提问于2016-02-03
得票数 2
1
回答
Spark
2.2.0 FileOutputCommitter
hadoop
、
apache-spark
、
amazon-s3
、
apache-spark-sql
、
amazon-emr
DirectFileOutputCommitter在
Spark
2.2.0中不再可用。这意味着写到S3需要非常长的时间(3小时比2分钟)。通过这样做,我可以通过将FileOutputCommitter版本设置为2来解决这个问题,
spark
-shell --conf
spark
.hadoop.mapreduce.fileoutputcommitter.algorithm.version
spark
-sql --conf
spark
.hadoop.mapreduce.fileoutputcommitter.al
浏览 5
提问于2017-09-17
得票数 13
2
回答
spark
sql中是否有与nth_value等效的窗口函数
apache-spark-sql
我正在寻找一个窗口函数,从分区/窗口中获取第n个值,类似于
浏览 0
提问于2020-06-08
得票数 0
2
回答
Spark
2.4.x: map中的重复键
python
、
apache-spark
、
pyspark
、
apache-spark-sql
在
Spark
中给定
以下
两个数组列: df =
spark
.createDataFrame( Row(+------------------------++------------------------+ 我想
使用
2.4.x中,map函数的
行为
是复制键。我知道
Spark
3.x
使用
config
浏览 175
提问于2021-07-15
得票数 2
1
回答
使用
Delta,
如何
在压缩后删除原始文件
apache-spark
、
spark-streaming
、
databricks
、
delta-lake
下面是我
如何
压缩数据(我正在
使用
Java): .format("delta") .format("delta") .option("
repl
浏览 5
提问于2021-06-29
得票数 2
2
回答
无法
使用
火花连续流处理数据
apache-spark
、
pyspark
、
apache-kafka
、
spark-structured-streaming
我正在开发一个实时流应用程序,该应用程序可以从Kafka broker中轮询数据,并且我正在调整以前默认
使用
Spark
结构化流的代码(带有微批处理)。但是,我不知道
如何
使用
连续流而不是微批量流来
获得
类似的
行为
。.foreach(example_func) \ .start() 连续执行不支持在org.apache.<em
浏览 1
提问于2020-09-29
得票数 5
1
回答
排除
Spark
优化器中的特定规则
apache-spark-sql
我有
以下
涉及UNION的
Spark
(2.4.0)查询。现在,我试图限制优化器从其查询的物理计划中排除特定规则,以便
Spark
只为这两个查询创建一个Exchange。我试过
以下
几句都是徒劳的。SET "
spark
.sql.optimizer.excludeRules" = org.apache.
spark
.sql.catalyst.optimizer.PushDownPredicate;from tableAhaving coun
浏览 1
提问于2020-07-20
得票数 0
回答已采纳
1
回答
Spark
& GeoMesa中地理空间表的左半连接
apache-spark-sql
、
geospatial
、
geomesa
问题:select * from table 1 where table1.point is within 50km of any pointin table2.point 我
使用
Spark
-SQL和GeoMesa & Accumulo来实现同样的功能。(
Spark
作为处理引擎,Accumulo作为数据存储库& GeoMesa用于GeoSpatial库)。上面的查询是某种left semi join,但我不确定
如何
使用<
浏览 3
提问于2017-03-23
得票数 0
回答已采纳
3
回答
添加包含按df分组的列数og的列
scala
、
dataframe
、
apache-spark
、
group-by
如何
使用
group By
子句
将列添加到具有行数的DF中?2 || Cat1 | B | 1 |我尝试了
以下
几种方法df.withColumn("n", df.groupBy("Category", "txn").count()) type mismatch; found : org.apac
浏览 46
提问于2019-11-25
得票数 2
回答已采纳
1
回答
如何
选择不属于GROUP
子句
或聚合函数的列?
mysql
、
apache-spark-sql
我有
以下
查询:FROM public."tabA"在执行时,
Spark
提供:
如何
与其他列一起选择列的计数?
浏览 0
提问于2017-03-09
得票数 1
回答已采纳
2
回答
在
Spark
JDBC属性中下推过滤器谓词
apache-spark
、
jdbc
我
如何
设置我的
spark
jdbc选项,以确保我将过滤器谓词下推到数据库中,而不是先加载所有内容?我用的是
spark
2.1我无法
获得
正确的语法来
使用
,我知道我可以在load()后面添加一个where
子句
,但这显然会先加载所有内容。我正在尝试下面的方法,但是这个过滤器在我的db客户端中运行需要几秒钟的时间,它没有返回任何东西,只是在尝试从
spark
jdbc向下推送谓词时继续运行。TS_COLUMN) = '2018-01-01'"
浏览 2
提问于2018-01-04
得票数 1
1
回答
Spark
Mongo连接器:在MongoDB连接中只插入一个属性
python
、
mongodb
、
apache-spark
、
upsert
假设我有
以下
蒙戈文件: "_id":1, "foo": 20以及下面的星火DataFrame df: 1 | 'a'但!如果我执行
以下
操作,则
浏览 0
提问于2018-05-30
得票数 1
回答已采纳
1
回答
创建具有任意数量的
子句
的PySpark .when()语句
python
、
apache-spark
、
pyspark
、
apache-spark-sql
我是PySpark的新手,我正在尝试创建一个通用的.when()函数,它可以接受任意数量的when-
子句
,而不必在函数中列出它们。when( ) df.when( ) ) 我怀疑我将不得不
使用
**kwargs来允许这种
行为
的发生,但我不确定
Spark
是否已经支持这种
行为
。
浏览 11
提问于2020-11-06
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
使用Spark将本地文件读取并封装为DataFrame的完整指南
大牛也只能减少却不能避免的python异常错误
Python Exceptions介绍
【Python】Python3异常
成功从 Hadoop 迁移到 Lakehouse 架构的 5 个关键步骤
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券