腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
Pyspark-SQL
和
Pyspark
中
使用
Delta
格式
查询
表
有
什么
不同
?
python
、
apache-spark
、
pyspark
、
databricks
、
delta-lake
我正在
查询
表
,但我
使用
两种方式得到了
不同
的结果,我想了解一下原因。 我
使用
Delta
location创建了一个
表
。我想
查询
我存储
在
该位置的数据。我正在
使用
亚马逊S3。我创建了这样的
表
: spark.sql("CREATE TABLE bronze_client_trackingcampaigns.TRACKING_BOUNCES (ClientID INT, SendIDINT, Sub
浏览 12
提问于2019-06-07
得票数 1
回答已采纳
1
回答
Pyspark
dataframe拼接vs.增量:
不同
的行数
apache-spark
、
pyspark
、
parquet
、
delta-lake
我
在
HDFS上以
Delta
格式
写入了数据。据我所知,
Delta
正在以拼接的形式存储数据,只是
在
它上面增加了一个具有高级功能的层。但是,当
使用
Pyspark
读取数据时,如果
使用
spark.read.parquet()或spark.read.format('
delta
').load()读取dataframe,我会得到
不同
的结果 df= spark.read.format('
delta
浏览 28
提问于2021-01-27
得票数 1
回答已采纳
1
回答
从外部连接到数据库托管蜂巢
azure
、
pyspark
、
hive
、
databricks
我
有
:A kubernetes集群在数据库
使用
的相同的Azure blob存储区
中
以拼花
和
/或
Delta
格式
读写数据(通过spark提交以增量
格式
写入数据)。我想做的是: 利
浏览 1
提问于2021-08-19
得票数 2
2
回答
如何更改
Delta
表
的添加列?
delta-lake
我想
使用
spark
在
Delta
表
中
添加一些列,但它显示的错误如下: ALTER ADD COLUMNS does not support datasource table with type org.apache.spark.sql.
delta
.sources.DeltaDataSource
有
什么
办法改变我在三角湖的桌子吗?
浏览 3
提问于2022-03-14
得票数 3
2
回答
将多个数据帧连接在一条语句中,并仅选择所需列
python
、
pyspark
、
pyspark-sql
我
有
以下火花DataFrames: from df1 left join df3 on df1.name=df3.name 我
使用
浏览 1
提问于2018-06-27
得票数 1
1
回答
通过集群提高SparkSQL
查询
性能
apache-spark-sql
我是SparkSQL新手,我主要负责编写SparkSQL
查询
。我们经常需要在
查询
中
使用
JOIN大
表
,并且不需要很长时间就会遇到与它们相关的性能问题(例如。Joins、aggregates等)。在网上搜索补救方法时,我最近遇到了一些术语-- COALESCE()、REPARTITION()、DISTRIBUTE BY、CLUSTER BY等,而且它们可能用于提高慢速运行的SparkSQL
查询
的性能不幸的是,我找不到足够的例子,让我清楚地理解它们,并开始将它们应用到我的
查询
中</e
浏览 5
提问于2020-06-05
得票数 0
3
回答
如何在jupyter笔记簿中
使用
pyspark
查阅deltalake
表
pyspark
、
jupyter-notebook
、
delta-lake
我正在尝试开始
使用
DeltaLakes,
使用
Pyspark
。为了能够
使用
deltalake,我
在
Anaconda shell上调用
pyspark
提示为-以下是deltalake- 的参考资料 从Anaconda shell提示符
中
可以很好地执行有关
delta
lake的所有命令。
在
浏览 0
提问于2019-08-31
得票数 3
1
回答
从_commit_timestamp读取数据时,将“DeltaTable”列追加到最新的数据版本
scala
、
azure-databricks
、
delta-lake
我
在
delta
湖中有数据,每一行上都没有时间戳来确定
什么
时候添加/修改了该行,但我只需要在指定的日期/时间之后创建/修改行。我想要三角洲湖数据的最新版本,但希望将变更数据提要
中
的"_commit_timestamp“附加到从增量湖读取的数据文件
中
,这样我就可以只选择
在
指定日期/时间之后写入的数据,而不是整个数据集。更改数据提要将所有修改返回到一行,即插入/删除/更新,以便在每个版本
中
对同一行/
浏览 4
提问于2022-03-31
得票数 0
2
回答
蜂巢亚稳态误差的配准
Delta
表
hive
、
pyspark
、
amazon-emr
、
delta-lake
我需要在Hive亚稳态中注册
Delta
表
,以便能够
使用
连接到ThriftServer的外部报告工具来
查询
它LOCATION '/tmp/orders/
delta
/'spark.sql("CREATE TABLE orders_
delta
USING
delta
LOCATION
浏览 5
提问于2019-11-11
得票数 0
回答已采纳
2
回答
使用
pyspark
从平面记录创建段数组
arraylist
、
pyspark
、
apache-spark-sql
、
record
我
有
一个稀疏填充的
表
,其中包含唯一用户ids的各个段的值。我只需要创建一个包含unique_id
和
相关段标头的数组 请注意,这只是一个指示性的数据集。我
有
几百个这样的片段。] || 300 | [seg1, seg2, seg4] | -------------------------------
在
pyspark-sql
的
pyspark
中有
什么
函数可以实现这一点吗?
浏览 10
提问于2020-09-02
得票数 1
回答已采纳
2
回答
Spark (2.3+)可从
PySpark
/Python调用的Java函数
java
、
apache-spark
、
pyspark
该值可以是
pyspark
.sql.types.DataType对象,也可以是DDL
格式
的类型字符串。阅读上面我链接的文档,你会发现在一个类
和
Java函数(可以从
PySpark
中
的Spark-调用)之间存在SQL一对一的映射。因此,如果我
有
10个Java UDF函数,那么我需要创建10个公共Java类,每个类
有
1个UDF,以使它们可从
PySpark
/SQL调用。 这是正确的吗?我是否可以创建1个public Java类,并将许多
不同</
浏览 76
提问于2018-08-11
得票数 0
1
回答
如何在databricks
中
现有的增量表
中
添加自动增量列
pyspark
、
databricks
、
azure-databricks
、
delta-lake
在
Databricks
中
,我
有
一个现有的
delta
表
,我希望在其中再添加一个列,作为Id,这样每一行都有唯一的id no,并且是连续的(主键
在
sql
中
的存在方式)。到目前为止,我已经尝试将
delta
表
转换为,并将新列添加为from
pyspark
.sql import functionswithColumn(&q
浏览 5
提问于2022-07-12
得票数 0
1
回答
如何在齐柏林飞艇笔记本
和
火花放电中导入达美湖模块?
pyspark
、
apache-zeppelin
、
delta-lake
我试图
使用
达美湖
在
齐柏林笔记本与火星雨,似乎它无法成功地导入模块。例如:from
delta
.tables import * ModuleNotFoundError:没有名为'
delta
‘的模块
有
什么
办法可以利用齐柏
浏览 2
提问于2019-12-04
得票数 4
2
回答
将
PySpark
数据转换为
Delta
表
apache-spark
、
pyspark
、
aws-glue
、
delta-lake
我
在
AWS胶水环境工作。我将Glue目录
中
的数据作为动态数据读取,并将其转换为
Pyspark
dataframe以进行自定义转换。为了重新插入新的/更新的数据,我打算
使用
delta
表
。为了执行合并操作,我需要将我的
Pyspark
转换为
Delta
表
。
有
办法这样做吗?
浏览 7
提问于2021-08-30
得票数 3
回答已采纳
2
回答
Pyspark
+Azure突触-需要将数据合并成带有增量表的蔚蓝突触
azure
、
azure-synapse
我
有
一个数据帧
和
synapse
表
,需要将数据帧合并成一个带有增量位置的synapse
表
。我跟踪了
不同
的文档,但仍然无法
在
突触
中
合并。 你能帮我做这个吗?
浏览 3
提问于2022-10-11
得票数 0
回答已采纳
3
回答
DataBricks -将更改保存回DataLake (ADLS Gen2)
azure-data-lake
、
databricks
、
azure-databricks
我将遗留数据作为CSV存储
在
Azure DataLake Gen2存储帐户
中
。我能够连接到它并
使用
DataBricks
查询
它。我
有
一项要求,即在某些记录的保留期届满后,或如果GDPR“被遗忘的权利”需要应用于数据时,就必须删除这些记录。
使用
Delta
,我可以将CSV加载到
Delta
表
中
,并
使用
SQL定位
和
删除所需的行,但是保存这些更改的最佳方法是
什么
?理想情况下,
浏览 1
提问于2019-05-24
得票数 1
回答已采纳
1
回答
使用
列值作为火花DataFrame函数的参数
apache-spark
、
pyspark
、
apache-spark-sql
:假设我想重复每一行
在
列rpt中指定的次数,就像在这个中一样一种方法是
使用
以下
查询
将我的
pyspark-sql
复制到该问题:SELECT * (SELECT DISTINCT *,
浏览 2
提问于2018-07-02
得票数 11
回答已采纳
1
回答
无法识别谓词'Column<b‘。皮斯帕克|三角洲湖
apache-spark
、
pyspark
、
delta-lake
尝试
使用
日期(yyyy-MM-dd)
和
时间(hhmm)分区对增量湖
表
进行重新分区。recognize the predicate 'Column<b'((partitionTime = 1357) AND (partitionDate = 2020-10-27))'>';" 我可以分别
查询
两个分区,但是当我同时
查询
这两个分区时,我得到了上面的错误 spark \ .read.format("
delta
")
浏览 15
提问于2020-10-28
得票数 1
1
回答
在
Databricks
中
复制
Delta
表
后,它的写入速度显著提高
sql
、
performance
、
pyspark
、
databricks
、
delta-lake
我正在将一个
PySpark
数据文件合并到一个
Delta
表
中
。输出增量按日期进行分区。sdf.TIME) ,
在
将
Delta
的内容复制到另一个位置后,当
使用
而不是PATH_TO_THE_TABLE时,上面的
查询
变得比PATH_TO_THE_TABLE快60倍
浏览 1
提问于2021-12-13
得票数 3
1
回答
如何在不
使用
Pyspark
的情况下用Python编写增量表/增量
格式
?
python
、
pandas
、
dataframe
、
delta-lake
我正在寻找一种方法,可以
在
python
中
写回一个
delta
表
,而不需要
使用
pyspark
。我知道
有
一个叫做deltalake/的库,可以用来读取增量表并将它们转换成熊猫数据。目标是写回打开的增量表from deltalake import DeltaTabledf = dt.to_pandas() 那么,
有
什么
方法
浏览 1
提问于2021-10-01
得票数 5
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
路由器和交换机有什么不同?在实际使用中如何选择
一文读懂 PySpark 数据框
一文读懂PySpark数据框
京东实时数据仓库开发实践
深度对比Apache CarbonData、Hudi和Open Delta三大开源数据湖方案
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券