Delta Lake MERGE INTO语句_Delta Lake:性能挑战_Delta Lake表元数据 - 腾讯云开发者社区

apache-spark、delta-lake

我在试着管理德尔塔湖MERGE INTO MERGE INTO sessionsON sessions.sessionId = updates.sessionIdWHEN NOT MATCHED THEN INSERT * 我收到一个SQL错误 ParseException: mismatched input 'MERGE, 'REVOKE', 'GRANT', 'LOCK', '

浏览 58提问于2020-07-15得票数 0

回答已采纳

2回答

使用R创建数据库增量表Merge语句

r、duplicates、databricks、sparklyr、delta-lake

我最近开始研究Databricks，并且一直在尝试找到一种方法来对Delta表执行merge语句，尽管使用的是R(最好是sparklyr)。上述文档描述了Python工作流： deltaTable.alias("logs").merge( "logs.uniqueId

浏览 28提问于2021-11-23得票数 1

2回答

Py4JJavaError:调用o771.save时出错。Azure Synapse分析笔记本

pyspark、azure-synapse、spark-notebook

delta_lake_folder = 'abc' source_wildcard = 'abc.parquet' delta_table_path = data_lake_container + &#

浏览 17提问于2022-07-12得票数 0

2回答

我正在通过spark structured向delta写入数据流。每个流批次包含key - value (还包含作为一列的时间戳)。delta lake不支持在源(蒸汽批)上使用多个相同的键进行更新，所以我只想用最新的时间戳记录来更新delta lake。我该怎么做呢？microBatchOutputDF.show() .merge( microBatchOutputDF.as("s"

浏览 27提问于2020-06-19得票数 2

回答已采纳

2回答

在Pandas DataFrame中找到两个匹配行来计算值

python、pandas

鉴于这个例子框架：0 building NY a 20193 lake SF b 2007 142.2 ?"delta“列还不存在，但是可以很容易地使用df["Delta"] = 0添加空列。我只是不知道如何填充所有行的delta列。

浏览 4提问于2019-12-10得票数 0

回答已采纳

1回答

合并操作后的Delta Lake Spark压缩导致'DeltaTable‘对象没有属性'_get_object_id’错误

python-3.x、apache-spark、pyspark、delta-lake

line 298, in get_command_part代码 delta_table = DeltaTab

浏览 3提问于2020-06-10得票数 0

2回答

Delta lake merge不更新架构(启用自动架构演化)

pyspark、databricks、delta-lake

当我执行以下代码行时，我得到一个错误：spark.conf.set("spark.databricks.delta.schema.autoMerge.enabled ","true") 我不确定到底是什么导致了这个错误

浏览 6提问于2020-11-18得票数 3

2回答

如何控制Delta Lake合并输出中的文件数

apache-spark、partition、delta-lake

我正在使用Delta Lake 0.4.0和Merge，例如： .merge( src.as("s"),

浏览 27提问于2019-11-19得票数 1

2回答

AWS Glue能否抓取Delta Lake表数据？

apache-spark、amazon-s3、aws-glue、delta-lake

根据Databricks的article，将delta lake与AWS Glue集成是可能的。然而，我不确定是否有可能在Databricks平台之外也这样做。是不是有人这么做了？另外，是否可以使用Glue爬虫添加与Delta Lake相关的元数据？

浏览 16提问于2019-10-02得票数 8

1回答

pip3安装delta-lake-reader[aws]在MacOS Mojave上失败

python-3.x、amazon-s3、pyarrow、delta-lake

我试图安装delta-lake-reader[aws]在我的MacBook Pro与MacOS莫哈韦，它是失败的。我的笔记本电脑上安装了Python3.9.1。$ pip3 install delta-lake-reader[aws] Using cached delta_lake_reader[aws]==0.1.0, delta-lake

浏览 6提问于2021-04-10得票数 2

回答已采纳

1回答

Delta Lake: Delta表的下一版本如何不携带删除的记录？

python、databricks、azure-databricks、delta-lake

我们每天在delta lake表(表名: dst1)中加载源文件作为时间序列数据。如果deltalake表不存在，我们将创建一个表。如果表确实存在，我们将合并新数据作为时间序列数据。}") here df --> has datajkey --> d.id=ds.id spark.sql(f"MERGE INTO {dtable} d

浏览 20提问于2021-09-23得票数 2

回答已采纳

1回答

Delta Lake:性能挑战

pandas、delta-lake

方法2:我已经实现了delta lake，其中输出pandas数据帧被转换为Spark数据帧，然后将数据插入到分区的Delta Table中。

浏览 8提问于2020-10-28得票数 1

5回答

Apache Spark SQL支持MERGE子句吗？

sql、hadoop、apache-spark、apache-spark-sql、databricks

Apache Spark SQL是否支持与Oracle的MERGE SQL子句类似的MERGE子句？MERGE into <table> using ( when matched then update...

浏览 2提问于2017-10-07得票数 8

2回答

无法读取Delta格式的Delta / Parquet文件

apache-spark、pyspark、azure-databricks、delta-lake

我试图使用Databricks中的以下代码来读取Databricks中的delta / parquet df3 = spark.read.format("delta").load('/mnt/lake/

浏览 9提问于2022-08-06得票数 0

回答已采纳

1回答

delta中spark.databricks.delta.snapshotPartitions配置的用途是什么？

apache-spark、delta-lake

我在穿越德尔塔湖的时候遇到了一个配置spark.databricks.delta.snapshotPartitions，但是我不太确定这是用来做什么的？在delta lake文档中也找不到这一点。在delta lake github中找到以下代码，但不确定此属性如何工作 buildConf("snapshotPartitions") .doc(&

浏览 18提问于2020-05-06得票数 0

回答已采纳

2回答

Azure Data Factory可以从Delta Lake格式读取数据吗？

azure-data-factory-2、delta-lake

我们能够通过在ADF中将增量文件源指定为parquet数据集来读取文件。尽管这会读取增量文件，但它最终会读取增量文件中数据的所有版本/快照，而不是专门选取增量数据的最新版本。这里有一个类似的问题-- Is it possible to connect to databricks deltalake tables from adf 但是，我希望从ADLS Gen2位置读取增量文件。感谢任何关于这方面的指导。

浏览 20提问于2020-01-03得票数 1

4回答

没有Databricks运行时的Delta Lake

apache-spark、hdfs、databricks、delta-lake

可以使用Delta Lake而不依赖于Databricks Runtime吗？(我的意思是，是否可以仅在prem上使用带有hdfs和spark的delta-lake？)

浏览 10提问于2020-03-24得票数 5

1回答

到增量表的Simba ODBC连接&使用.Net C#从增量表中读取数据

c#、.net、odbc、delta-lake、simba

增量格式表示例：https://docs.delta.io/latest/quick-start.html#-create-a-table&language-python 已经按照https://www.simba.comfrom server: error code: '0' error message: 'Error running query: java.lang.ClassNotFoundException: DELTA.DefaultSource

浏览 28提问于2021-03-23得票数 1

1回答

从本地Spark作业连接到Azure Data Lake Gen 2

java、azure、apache-spark、azure-databricks、delta-lake

FileSystem.java:479) at org.apache.spark.sql.delta.DeltaTableUtils我使用的是io.delta 0.3.0，Spark 2.4.2_2.12和azure-hadoop3.2.0。fs.azure.account.key.stratify.dfs.core.windows.net", "my gen 2 key");

浏览 21提问于2019-09-12得票数 2

1回答